vllm 问题：一个将ExLlamaV2内核与AWQ集成的PR是否会被接受？

u4vypkhs 于 2个月前发布在其他

关注(0)|答案(4)|浏览(96)

最近，ExLlamaV2内核被引入到AutoAWQ中。我们可以立即将AWQ打包的权重Map为与ExLlama兼容，运行解码速度大约提高20%。

性能
请注意，预填充差距最近已经关闭，因此主要优势将在解码过程中体现。

GEMM (AWQ内核)

批处理大小	预填充长度	解码长度	预填充tokens/s	解码tokens/s	内存(VRAM)
1	64	64	316.842	156.038	4.78 GB (20.20%)
1	128	128	4898.86	154.977	4.79 GB (20.27%)
1	256	256	5366.24	151.31	4.81 GB (20.35%)
1	512	512	5239.46	144.517	4.85 GB (20.51%)
1	1024	1024	4573.25	132.849	4.93 GB (20.83%)
1	2048	2048	3859.42	114.249	5.55 GB (23.48%)
8	64	64	1733.1	1176.07	4.83 GB (20.42%)
8	128	128	5359.34	1167.19	4.90 GB (20.72%)
8	256	256	5145.94	1130.84	5.03 GB (21.26%)
8	512	512	4802.91	1070.9	5.67 GB (23.98%)
8	1024	1024	4391.24	972.987	7.84 GB (33.17%)
8	2048	2048	3643	822.977	16.82 GB (71.12%)

来源：https://github.com/vllm-project/vllm/issues/2645

4条答案

按热度按时间

我不明白为什么不行！实际上，GPTQ量化工作也在引入exllama,我相信#2223。

赞(0）回复(0）举报 2个月前

这将是一份早期的圣诞礼物。

赞(0）回复(0）举报 2个月前

@casper-hansen 这是你已经完成的工作，还是应该将其作为功能请求，直到有人有能力处理？

赞(0）回复(0）举报 2个月前

我没有足够的带宽来处理它。

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前