vllm 4位推理?

3zwjbxry  于 7个月前  发布在  其他
关注(0)|答案(6)|浏览(195)

任何添加4位推理的可能性吗?vllm真是太棒了!

zz2j4svz

zz2j4svz1#

你是指w4a4吗?4位权重仅已支持。

vatpfxk5

vatpfxk52#

我的意思是这样的:--quantization = int4
它可能已经存在某个地方,或者可能有一个方法可以做到这一点,但我们就是找不到。

1yjd4xko

1yjd4xko3#

我犯了个错误。我的意思是这样的:--quantization=int4
它可能已经存在某个地方,或者可能有一个方法可以做到这一点,但我们就是找不到。
尝试在启动命令中添加这个参数'-q gptq'或'-q awq '。至于'-- quantification=int4',代码会在模型路径下自动找到量化配置以获取量化位

omhiaaxx

omhiaaxx4#

GREAT!!!!!!!!!!!!!!!!!!!!!!!!!!! THX!!!!!!!!!!!!!!!!!!!!!!! 8-))

q35jwt9p

q35jwt9p5#

你有没有一个小小的示例在某个地方漂浮?

91zkwejq

91zkwejq6#

你是指w4a4吗?4位权重仅已支持
+1
像这样的算法: https://github.com/efeslab/Atom

相关问题