vllm CPU KV缓存何时使用和交换?

c9qzyr3d  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(38)

你好,作者们,
在你们的实现中,GPU内存被用于存储KV缓存。然而,当GPU内存达到其容量时,似乎没有相应的机制来卸载或交换这些数据到CPU内存。

  1. 请在什么情况下CPU KV缓存发挥作用?
  2. 如果我想进行交换,请告诉我如何调用CPU KV缓存(或API)?
4dc9hkyq

4dc9hkyq1#

CPU KV缓存仅在序列组中有多个序列运行时使用。这种情况的一个例子是在启用beam_searchbest_of>1的生成请求时。

您可以在这里看到逻辑。

您可以在这里看到逻辑被调用的地方。

目前似乎没有其他情况下启用CPU交换的方法。您可以在上面我列出的上述位置修改服务器代码。

相关问题