[Usage]: Prefix caching in VLLM

cetgtptt  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(24)

1)当我启动一个兼容OpenAI的VLLM服务器python3 -m vllm.entrypoints.openai.api_server --model TheBloke/Mistral-7B-Instruct-v0.2-AWQ --max-model-len 32768 --gpu-memory-utilization 0.8 --quantization awq --enable-prefix-caching时,前缀缓存在发送一批请求时可以正常工作,但在多个请求之间不起作用。我观察到GPU KV缓存在请求完成后立即将负载降至0%,这里我是否遗漏了什么?

2)对于前缀缓存,除了LRU方法,是否可以实现LFU方法?如果采用这种方法,会有什么缺点?

3)我想在服务器启动时配置我的KV缓存,并阻止它们在服务器停止之前被卸载。这是可能的吗?

提前感谢!

nafvub8i

nafvub8i1#

  1. KV缓存利用率测量仅包括具有活动请求运行的KV。因此,这是预期的
  2. 我们不支持LFU。我们对替代时间表持开放态度,但我认为LRU更有意义
  3. 目前这是不可能的

相关问题