1)当我启动一个兼容OpenAI的VLLM服务器python3 -m vllm.entrypoints.openai.api_server --model TheBloke/Mistral-7B-Instruct-v0.2-AWQ --max-model-len 32768 --gpu-memory-utilization 0.8 --quantization awq --enable-prefix-caching
时,前缀缓存在发送一批请求时可以正常工作,但在多个请求之间不起作用。我观察到GPU KV缓存在请求完成后立即将负载降至0%,这里我是否遗漏了什么?
2)对于前缀缓存,除了LRU方法,是否可以实现LFU方法?如果采用这种方法,会有什么缺点?
3)我想在服务器启动时配置我的KV缓存,并阻止它们在服务器停止之前被卸载。这是可能的吗?
提前感谢!
1条答案
按热度按时间nafvub8i1#