[Usage]: Prefix caching in VLLM

cetgtptt 于 3个月前发布在其他

关注(0)|答案(1)|浏览(25)

1)当我启动一个兼容OpenAI的VLLM服务器python3 -m vllm.entrypoints.openai.api_server --model TheBloke/Mistral-7B-Instruct-v0.2-AWQ --max-model-len 32768 --gpu-memory-utilization 0.8 --quantization awq --enable-prefix-caching时，前缀缓存在发送一批请求时可以正常工作，但在多个请求之间不起作用。我观察到GPU KV缓存在请求完成后立即将负载降至0%,这里我是否遗漏了什么？

2)对于前缀缓存，除了LRU方法，是否可以实现LFU方法？如果采用这种方法，会有什么缺点？

3)我想在服务器启动时配置我的KV缓存，并阻止它们在服务器停止之前被卸载。这是可能的吗？

提前感谢！

vllm

来源：https://github.com/vllm-project/vllm/issues/5176