我的问题中有一个真正的2合1,但它们是相关的...我猜!我正在考虑自己整合Omniquant,因为它比MLC量化器性能高出约5%(我忘记了我在查看的用户测试中使用了哪些方法)。5%并不多,但考虑到MLC是我心目中最好的平台(在我谦虚的观点中),它的表现比普通的llama.cpp AWQ等要好得多。
https://github.com/OpenGVLab/OmniQuant/tree/main
它已经存在一段时间了,并被ICLR 2024会议所关注(演讲将在一周左右进行,实际上可能会得到更多的认可)。
当然,OQ用于所有模型--没有专门化,当我在研究如何将OQ格式化为适应MLC的量化时,我注意到添加了新的每Tensor方法。从它的脚本来看,它主要针对混合型。只是想知道是否如此,如果有人/ MLC有任何经验或结果可以指导我,谢谢!
1条答案
按热度按时间cwdobuhd1#
最近添加的per-tensor量化是针对fp8的,到目前为止,我们已经在mixtral和llama上进行了测试,并且正在进行更多的工作,例如校准比例。