在VLLM中的批处理

ykejflvf  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(89)

团队,我尝试使用AWQ和FP16在批处理大小为32的情况下运行VLLM,我的提示大约是1000-2000个标记。我在一个1x A100 80GB的系统上运行,我观察到了一个奇怪的事情,在整个批次中,第一个序列在生成响应方面花费了最多的时间。请参阅以下示例,其中批处理ID为9,第一个序列完成所需的时间为约20秒,其余序列不到1秒。我在运行剩余批次时也观察到了相同的模式。

有人在使用VLLM的批次时观察到相同的模式吗?或者有人知道为什么会出现这种模式吗?

u5i3ibmn

u5i3ibmn1#

你是如何计算每个序列的时间的?
vLLM将根据你的系统允许的GPU内存处理尽可能多的批次中的序列。如果你计算sequence_i的时间是arrival_time_i - arrival_time_i-1,那么这些结果就是我所期望的

相关问题