vllm [特性]:支持W4A8KV4量化(QServe/QoQ)

wfsdck30 于 2个月前发布在其他

关注(0)|答案(3)|浏览(26)

🚀 功能、动机和介绍

这个库 https://github.com/mit-han-lab/qserve 引入了许多创新。更重要的是，它在论文中被称为 QoQ 的 W4A8KV4 量化。
驱动 QServe 的关键洞察力是 LLM 在 GPU 上的服务效率受到低吞吐量 CUDA 核心操作的严重影响。基于这一洞察力，在 QoQ 算法中，我们引入了渐进量化，可以在 W4A8 GEMM 中实现低去量化开销。此外，我们开发了 SmoothAttention 以有效地减轻由 4-bit KV 量化引起的准确性降低。在 QServe 系统中，我们执行计算感知的权重重排序，并利用寄存器级并行性来减少去量化延迟。我们还将融合注意力内存绑定，利用 KV4 量化带来的性能提升。因此，QServe 将 Llama-3-8B 的最大可实现服务吞吐量提高了 1.2x(在 A100 上)和 1.4x(在 L40S 上),将 Qwen1.5-72B 提高到了 2.4x(在 A100 上)和 3.5x(在 L40S 上),与 TensorRT-LLM 相比。