最近,ExLlamaV2内核被引入到AutoAWQ中。我们可以立即将AWQ打包的权重Map为与ExLlama兼容,运行解码速度大约提高20%。
性能
请注意,预填充差距最近已经关闭,因此主要优势将在解码过程中体现。
GEMM (AWQ内核)
批处理大小 | 预填充长度 | 解码长度 | 预填充tokens/s | 解码tokens/s | 内存(VRAM) |
---|---|---|---|---|---|
1 | 64 | 64 | 316.842 | 156.038 | 4.78 GB (20.20%) |
1 | 128 | 128 | 4898.86 | 154.977 | 4.79 GB (20.27%) |
1 | 256 | 256 | 5366.24 | 151.31 | 4.81 GB (20.35%) |
1 | 512 | 512 | 5239.46 | 144.517 | 4.85 GB (20.51%) |
1 | 1024 | 1024 | 4573.25 | 132.849 | 4.93 GB (20.83%) |
1 | 2048 | 2048 | 3859.42 | 114.249 | 5.55 GB (23.48%) |
8 | 64 | 64 | 1733.1 | 1176.07 | 4.83 GB (20.42%) |
8 | 128 | 128 | 5359.34 | 1167.19 | 4.90 GB (20.72%) |
8 | 256 | 256 | 5145.94 | 1130.84 | 5.03 GB (21.26%) |
8 | 512 | 512 | 4802.91 | 1070.9 | 5.67 GB (23.98%) |
8 | 1024 | 1024 | 4391.24 | 972.987 | 7.84 GB (33.17%) |
8 | 2048 | 2048 | 3643 | 822.977 | 16.82 GB (71.12%) |
4条答案
按热度按时间9o685dep1#
我不明白为什么不行!实际上,GPTQ量化工作也在引入exllama,我相信#2223。
7gs2gvoe2#
这将是一份早期的圣诞礼物。
2uluyalo3#
@casper-hansen 这是你已经完成的工作,还是应该将其作为功能请求,直到有人有能力处理?
ctrmrzij4#
我没有足够的带宽来处理它。