你好,作者们,在你们的实现中,GPU内存被用于存储KV缓存。然而,当GPU内存达到其容量时,似乎没有相应的机制来卸载或交换这些数据到CPU内存。
4dc9hkyq1#
CPU KV缓存仅在序列组中有多个序列运行时使用。这种情况的一个例子是在启用beam_search或best_of>1的生成请求时。
beam_search
best_of>1
您可以在这里看到逻辑。
您可以在这里看到逻辑被调用的地方。
目前似乎没有其他情况下启用CPU交换的方法。您可以在上面我列出的上述位置修改服务器代码。
1条答案
按热度按时间4dc9hkyq1#
CPU KV缓存仅在序列组中有多个序列运行时使用。这种情况的一个例子是在启用
beam_search
或best_of>1
的生成请求时。您可以在这里看到逻辑。
您可以在这里看到逻辑被调用的地方。
目前似乎没有其他情况下启用CPU交换的方法。您可以在上面我列出的上述位置修改服务器代码。