vllm [特性]:支持W4A8KV4量化(QServe/QoQ)

wfsdck30  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(26)

🚀 功能、动机和介绍

这个库 https://github.com/mit-han-lab/qserve 引入了许多创新。更重要的是,它在论文中被称为 QoQ 的 W4A8KV4 量化。
驱动 QServe 的关键洞察力是 LLM 在 GPU 上的服务效率受到低吞吐量 CUDA 核心操作的严重影响。基于这一洞察力,在 QoQ 算法中,我们引入了渐进量化,可以在 W4A8 GEMM 中实现低去量化开销。此外,我们开发了 SmoothAttention 以有效地减轻由 4-bit KV 量化引起的准确性降低。在 QServe 系统中,我们执行计算感知的权重重排序,并利用寄存器级并行性来减少去量化延迟。我们还将融合注意力内存绑定,利用 KV4 量化带来的性能提升。因此,QServe 将 Llama-3-8B 的最大可实现服务吞吐量提高了 1.2x(在 A100 上)和 1.4x(在 L40S 上),将 Qwen1.5-72B 提高到了 2.4x(在 A100 上)和 3.5x(在 L40S 上),与 TensorRT-LLM 相比。

其他

  • 无响应*

其他上下文

  • 无响应*

相关问题