vllm 请问什么时候支持qwen moe量化版本,最好是使用自动gptq或awq,

f5emj3cl  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(47)

🚀特性、动机和宣传

正如标题所示
目前,VLLM支持MOE,但不支持量化版本。在使用过程中,量化版本将提供更好的成本效益。

替代方案

正如标题所示

额外的背景信息

正如标题所示

56lgkhnf

56lgkhnf1#

你好,wellcasa。Neural Magic(特别是@ElizaWszola)正在通过扩展Marlin内核为GPTQ模型提供MoE支持。虽然可能还需要一些时间,但这是一项积极的工作!

相关问题