你好,作者们,
我为提出与仓库问题无关的问题而道歉,然而,你们是否考虑支持我在阅读最近的 paper 时遇到的一个新范式?
它看起来非常有前途,而且我认为写得很好,尤其是考虑到这种精度的表现。
团队里有人能尝试一下吗?
mfuanj7w1#
你好,感谢分享这篇论文!目前我并不打算整合INT4,这需要使用CUTLASS来定义自定义内核。我们目前正在使用cuBLAS进行矩阵乘法。
92vpleto2#
将此作为仅CPU优化的合理性如何?GGML支持在CPU上进行此操作,但我不确定这种方法是否在这里有意义。
r9f1avp53#
你好,如果能将int4量化集成到性能和推理方面非常有趣的结果中,那将是非常棒的!
t1rydlwq4#
我看到opennmt的最后几个版本已经添加了对4位和其他量化方法的支持。https://forum.opennmt.net/t/opennmt-py-v3-3-released-following-3-2-with-plenty-of-new-features/5366这些功能是否会被整合到CTranslate2中?
mjqavswn5#
是的,4位量化(在CPU上)是一个非常需要的功能。有任何计划来实现这个功能吗?
jgovgodb6#
或者,也许@ebraraktas可以更进一步,通过借鉴intel/neural-speed#178的思路,实现2比特和3比特量化。
6条答案
按热度按时间mfuanj7w1#
你好,
感谢分享这篇论文!
目前我并不打算整合INT4,这需要使用CUTLASS来定义自定义内核。我们目前正在使用cuBLAS进行矩阵乘法。
92vpleto2#
将此作为仅CPU优化的合理性如何?GGML支持在CPU上进行此操作,但我不确定这种方法是否在这里有意义。
r9f1avp53#
你好,
如果能将int4量化集成到性能和推理方面非常有趣的结果中,那将是非常棒的!
t1rydlwq4#
我看到opennmt的最后几个版本已经添加了对4位和其他量化方法的支持。https://forum.opennmt.net/t/opennmt-py-v3-3-released-following-3-2-with-plenty-of-new-features/5366
这些功能是否会被整合到CTranslate2中?
mjqavswn5#
是的,4位量化(在CPU上)是一个非常需要的功能。有任何计划来实现这个功能吗?
jgovgodb6#
或者,也许@ebraraktas可以更进一步,通过借鉴intel/neural-speed#178的思路,实现2比特和3比特量化。