vllm 问题:一个将ExLlamaV2内核与AWQ集成的PR是否会被接受?

u4vypkhs  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(96)

最近,ExLlamaV2内核被引入到AutoAWQ中。我们可以立即将AWQ打包的权重Map为与ExLlama兼容,运行解码速度大约提高20%。

性能
请注意,预填充差距最近已经关闭,因此主要优势将在解码过程中体现。

GEMM (AWQ内核)

批处理大小预填充长度解码长度预填充tokens/s解码tokens/s内存(VRAM)
16464316.842156.0384.78 GB (20.20%)
11281284898.86154.9774.79 GB (20.27%)
12562565366.24151.314.81 GB (20.35%)
15125125239.46144.5174.85 GB (20.51%)
1102410244573.25132.8494.93 GB (20.83%)
1204820483859.42114.2495.55 GB (23.48%)
864641733.11176.074.83 GB (20.42%)
81281285359.341167.194.90 GB (20.72%)
82562565145.941130.845.03 GB (21.26%)
85125124802.911070.95.67 GB (23.98%)
8102410244391.24972.9877.84 GB (33.17%)
8204820483643822.97716.82 GB (71.12%)
9o685dep

9o685dep1#

我不明白为什么不行!实际上,GPTQ量化工作也在引入exllama,我相信#2223

7gs2gvoe

7gs2gvoe2#

这将是一份早期的圣诞礼物。

2uluyalo

2uluyalo3#

@casper-hansen 这是你已经完成的工作,还是应该将其作为功能请求,直到有人有能力处理?

ctrmrzij

ctrmrzij4#

我没有足够的带宽来处理它。

相关问题