任何添加4位推理的可能性吗?vllm真是太棒了!
zz2j4svz1#
你是指w4a4吗?4位权重仅已支持。
vatpfxk52#
我的意思是这样的:--quantization = int4它可能已经存在某个地方,或者可能有一个方法可以做到这一点,但我们就是找不到。
1yjd4xko3#
我犯了个错误。我的意思是这样的:--quantization=int4它可能已经存在某个地方,或者可能有一个方法可以做到这一点,但我们就是找不到。尝试在启动命令中添加这个参数'-q gptq'或'-q awq '。至于'-- quantification=int4',代码会在模型路径下自动找到量化配置以获取量化位
omhiaaxx4#
GREAT!!!!!!!!!!!!!!!!!!!!!!!!!!! THX!!!!!!!!!!!!!!!!!!!!!!! 8-))
q35jwt9p5#
你有没有一个小小的示例在某个地方漂浮?
91zkwejq6#
你是指w4a4吗?4位权重仅已支持+1像这样的算法: https://github.com/efeslab/Atom
6条答案
按热度按时间zz2j4svz1#
你是指w4a4吗?4位权重仅已支持。
vatpfxk52#
我的意思是这样的:--quantization = int4
它可能已经存在某个地方,或者可能有一个方法可以做到这一点,但我们就是找不到。
1yjd4xko3#
我犯了个错误。我的意思是这样的:--quantization=int4
它可能已经存在某个地方,或者可能有一个方法可以做到这一点,但我们就是找不到。
尝试在启动命令中添加这个参数'-q gptq'或'-q awq '。至于'-- quantification=int4',代码会在模型路径下自动找到量化配置以获取量化位
omhiaaxx4#
GREAT!!!!!!!!!!!!!!!!!!!!!!!!!!! THX!!!!!!!!!!!!!!!!!!!!!!! 8-))
q35jwt9p5#
你有没有一个小小的示例在某个地方漂浮?
91zkwejq6#
你是指w4a4吗?4位权重仅已支持
+1
像这样的算法: https://github.com/efeslab/Atom