ollama Llama 3.1 70B高质量HQQ量化模型 - fp16质量达到99%以上

vu8f3i0k  于 22天前  发布在  其他
关注(0)|答案(2)|浏览(22)

我不确定这是否可行,但将这个添加到ollama可能会对4位量化选项的性能产生影响:
在lm-eval的所有基准测试中,相对于FP16的性能达到99%以上,与FP16相似的推理速度。
url:
https://huggingface.co/mobiuslabsgmbh/Llama-3.1-70b-instruct_4bitgs64_hqq

另外还有:
https://huggingface.co/ModelCloud/Meta-Llama-3.1-70B-Instruct-gptq-4bit

7cjasjjr

7cjasjjr1#

需要在llama.cpp中提供支持。已经提出了一些问题(ggerganov/llama.cpp#6368,ggerganov/llama.cpp#4782),但不幸的是,没有取得进展。

f4t66c6m

f4t66c6m2#

我也非常感兴趣地看到为这个添加支持。如果这有帮助,我会支付100美元的悬赏金。

相关问题