CTranslate2 Int4支持

bmvo0sr5  于 3个月前  发布在  其他
关注(0)|答案(6)|浏览(37)

你好,作者们,

我为提出与仓库问题无关的问题而道歉,然而,你们是否考虑支持我在阅读最近的 paper 时遇到的一个新范式?

它看起来非常有前途,而且我认为写得很好,尤其是考虑到这种精度的表现。

团队里有人能尝试一下吗?

mfuanj7w

mfuanj7w1#

你好,
感谢分享这篇论文!
目前我并不打算整合INT4,这需要使用CUTLASS来定义自定义内核。我们目前正在使用cuBLAS进行矩阵乘法。

92vpleto

92vpleto2#

将此作为仅CPU优化的合理性如何?GGML支持在CPU上进行此操作,但我不确定这种方法是否在这里有意义。

r9f1avp5

r9f1avp53#

你好,
如果能将int4量化集成到性能和推理方面非常有趣的结果中,那将是非常棒的!

t1rydlwq

t1rydlwq4#

我看到opennmt的最后几个版本已经添加了对4位和其他量化方法的支持。https://forum.opennmt.net/t/opennmt-py-v3-3-released-following-3-2-with-plenty-of-new-features/5366
这些功能是否会被整合到CTranslate2中?

mjqavswn

mjqavswn5#

是的,4位量化(在CPU上)是一个非常需要的功能。有任何计划来实现这个功能吗?

jgovgodb

jgovgodb6#

或者,也许@ebraraktas可以更进一步,通过借鉴intel/neural-speed#178的思路,实现2比特和3比特量化。

相关问题