vllm 当待处理请求大于0时,vlllm停止生成,

7bsow1i6  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(96)

在AWQ下,每个输入会暂时停止VLLM操作几秒钟,要么是生成吞吐量降为零,要么是提示吞吐量降为零,这表明系统不会同时处理提示和生成输出。
在一个包含10个请求的示例中,每个请求大约包含500个提示令牌,系统在开始任何生成之前需要大约20秒来处理提示。即使在处理完所有挂起的请求后,如果在此期间收到新请求,它也会中断正在进行的生成过程以处理新的提示。

11-21 00:12:08 llm_engine.py:624] Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 122.2 tokens/s, Running: 20 reqs, Swapped: 0 reqs, Pending: 9 reqs, GPU KV cache usage: 24.8%, CPU KV cache usage: 0.0%
INFO 11-21 00:12:13 llm_engine.py:624] Avg prompt throughput: 1032.4 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 22 reqs, Swapped: 0 reqs, Pending: 7 reqs, GPU KV cache usage: 27.1%, CPU KV cache usage: 0.0%
INFO 11-21 00:12:18 llm_engine.py:624] Avg prompt throughput: 1096.2 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 24 reqs, Swapped: 0 reqs, Pending: 5 reqs, GPU KV cache usage: 29.4%, CPU KV cache usage: 0.0%

这种模式表明,当面临多个请求时,AWQ协议优先处理新的提示而不是继续进行中的生成,并且每个提示的预处理速度较慢。
这是预期的行为吗?

cedebl8k

cedebl8k1#

@simon-mo 同样的bug。
#1707

a1o7rhls

a1o7rhls2#

你好,有关于这个的更新吗?
这对我们来说非常有用!

相关问题