mlc-llm [问题]据我所知,Omniquant在量化方法方面表现最好,为什么没有被采用?无论如何,对于混合/多任务模型,是否每张图的量化是最好的选择?

xxslljrj  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(36)

我的问题中有一个真正的2合1,但它们是相关的...我猜!我正在考虑自己整合Omniquant,因为它比MLC量化器性能高出约5%(我忘记了我在查看的用户测试中使用了哪些方法)。5%并不多,但考虑到MLC是我心目中最好的平台(在我谦虚的观点中),它的表现比普通的llama.cpp AWQ等要好得多。
https://github.com/OpenGVLab/OmniQuant/tree/main
它已经存在一段时间了,并被ICLR 2024会议所关注(演讲将在一周左右进行,实际上可能会得到更多的认可)。
当然,OQ用于所有模型--没有专门化,当我在研究如何将OQ格式化为适应MLC的量化时,我注意到添加了新的每Tensor方法。从它的脚本来看,它主要针对混合型。只是想知道是否如此,如果有人/ MLC有任何经验或结果可以指导我,谢谢!

cwdobuhd

cwdobuhd1#

最近添加的per-tensor量化是针对fp8的,到目前为止,我们已经在mixtral和llama上进行了测试,并且正在进行更多的工作,例如校准比例。

相关问题