vllm GPTQ不支持bfloat16,

4urapxun  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(62)

目前,我们的GPTQ内核仅支持float16精度。

rn0zuynd

rn0zuynd1#

目前,我们的GPTQ内核仅支持float16精度。是否有计划支持bf16?如果有,预计的时间是什么时候?

j1dl9f46

j1dl9f462#

The Exllama内核针对float16进行了优化,例如它使用magic number进行int4到float16的转换,并大量依赖half2数学运算符。PageAttention实现提供了一个处理不同精度的好例子,但需要大量的工作来实现。另一个选择是丢弃这些特定精度的技巧,使用适用于所有数据精度的通用模板函数,在这种情况下,性能会下降。
另外一件事是,AutoGPTQ默认以float16精度加载模型,因此即使config.json表示bf16,GPTQ检查点中的Tensor实际上可能是float16。

7vhp5slm

7vhp5slm3#

我将投票支持精确特定的优化,以确保最佳速度,因为该项目的目标是大规模和低延迟。

yebdmbv4

yebdmbv44#

WoosukKwon:有没有支持bf16的计划?
也许我们可以使用Triton来支持它,并在以后优化CUDA内核。
或者如果有路线图,我可以看看我能做些什么来帮助它。

相关问题