mlc-llm [问题]我们是否将批处理性能与vllm进行比较?

rkkpypqq  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(37)

你好,
我进行了一个简单的测试,比较了mlc和vllm在3090上的int4性能。并将推理阶段分为预填充和解码阶段,以获得准确的时间。
| 框架 | 1批预填充100个标记 | 1批解码 | 10批预填充100个标记 | 10批解码 |
| ------------ | ------------ | ------------ | ------------ | ------------ |
| vllm | 42.4ms | 9.6ms | 141.2ms | 14ms |
| mlc | 35.1 ms | 6.1ms | 192.6ms | 30.7ms |
从结果来看,我得出的结论是mlc在单批模式下表现优于vllm,而在多批模式下表现较差。
这个结果是否符合我们当前的预期?
谢谢~

相关问题