mlc-llm [问题] HQQ半二次量化是提高了MLC LLM的大小、速度还是质量?

2q5ifsrm  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(35)

一般性问题

根据我的理解,半二次量化(HQQ)是一种新的技术,用于量化模型以减少这些模型的内存需求,从而使其更容易部署。我想知道这是否实际上会有助于MLC-LLM提高其覆盖范围。

参考:$x_{1}e^{0}f_{1}x$

相关问题