vllm 当待处理请求大于0时，vlllm停止生成,

7bsow1i6 于 2个月前发布在其他

关注(0)|答案(2)|浏览(96)

在AWQ下，每个输入会暂时停止VLLM操作几秒钟，要么是生成吞吐量降为零，要么是提示吞吐量降为零，这表明系统不会同时处理提示和生成输出。
在一个包含10个请求的示例中，每个请求大约包含500个提示令牌，系统在开始任何生成之前需要大约20秒来处理提示。即使在处理完所有挂起的请求后，如果在此期间收到新请求，它也会中断正在进行的生成过程以处理新的提示。

11-21 00:12:08 llm_engine.py:624] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 122.2 tokens/s, Running: 20 reqs, Swapped: 0 reqs, Pending: 9 reqs, GPU KV cache usage: 24.8%, CPU KV cache usage: 0.0%
INFO 11-21 00:12:13 llm_engine.py:624] Avg prompt throughput: 1032.4 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 22 reqs, Swapped: 0 reqs, Pending: 7 reqs, GPU KV cache usage: 27.1%, CPU KV cache usage: 0.0%
INFO 11-21 00:12:18 llm_engine.py:624] Avg prompt throughput: 1096.2 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 24 reqs, Swapped: 0 reqs, Pending: 5 reqs, GPU KV cache usage: 29.4%, CPU KV cache usage: 0.0%

这种模式表明，当面临多个请求时，AWQ协议优先处理新的提示而不是继续进行中的生成，并且每个提示的预处理速度较慢。
这是预期的行为吗？

vllm

来源：https://github.com/vllm-project/vllm/issues/1734