🚀 功能、动机和介绍
这个库 https://github.com/mit-han-lab/qserve 引入了许多创新。更重要的是,它在论文中被称为 QoQ 的 W4A8KV4 量化。
驱动 QServe 的关键洞察力是 LLM 在 GPU 上的服务效率受到低吞吐量 CUDA 核心操作的严重影响。基于这一洞察力,在 QoQ 算法中,我们引入了渐进量化,可以在 W4A8 GEMM 中实现低去量化开销。此外,我们开发了 SmoothAttention 以有效地减轻由 4-bit KV 量化引起的准确性降低。在 QServe 系统中,我们执行计算感知的权重重排序,并利用寄存器级并行性来减少去量化延迟。我们还将融合注意力内存绑定,利用 KV4 量化带来的性能提升。因此,QServe 将 Llama-3-8B 的最大可实现服务吞吐量提高了 1.2x(在 A100 上)和 1.4x(在 L40S 上),将 Qwen1.5-72B 提高到了 2.4x(在 A100 上)和 3.5x(在 L40S 上),与 TensorRT-LLM 相比。
其他
- 无响应*
其他上下文
- 无响应*
3条答案
按热度按时间qrjkbowd1#
+1。
这是唯一从一开始就设计了吞吐量目的量化算法。
1hdlvixo2#
+1
wgx48brx3#
+1