你好,
我进行了一个简单的测试,比较了mlc和vllm在3090上的int4性能。并将推理阶段分为预填充和解码阶段,以获得准确的时间。
| 框架 | 1批预填充100个标记 | 1批解码 | 10批预填充100个标记 | 10批解码 |
| ------------ | ------------ | ------------ | ------------ | ------------ |
| vllm | 42.4ms | 9.6ms | 141.2ms | 14ms |
| mlc | 35.1 ms | 6.1ms | 192.6ms | 30.7ms |
从结果来看,我得出的结论是mlc在单批模式下表现优于vllm,而在多批模式下表现较差。
这个结果是否符合我们当前的预期?
谢谢~
1条答案
按热度按时间q0qdq0h21#
cc @MasterJH5574@yzh119