正如标题所示目前,VLLM支持MOE,但不支持量化版本。在使用过程中,量化版本将提供更好的成本效益。
正如标题所示
56lgkhnf1#
你好,wellcasa。Neural Magic(特别是@ElizaWszola)正在通过扩展Marlin内核为GPTQ模型提供MoE支持。虽然可能还需要一些时间,但这是一项积极的工作!
1条答案
按热度按时间56lgkhnf1#
你好,wellcasa。Neural Magic(特别是@ElizaWszola)正在通过扩展Marlin内核为GPTQ模型提供MoE支持。虽然可能还需要一些时间,但这是一项积极的工作!