我不确定这是否可行,但将这个添加到ollama可能会对4位量化选项的性能产生影响:
在lm-eval的所有基准测试中,相对于FP16的性能达到99%以上,与FP16相似的推理速度。
url:
https://huggingface.co/mobiuslabsgmbh/Llama-3.1-70b-instruct_4bitgs64_hqq
另外还有:
https://huggingface.co/ModelCloud/Meta-Llama-3.1-70B-Instruct-gptq-4bit
我不确定这是否可行,但将这个添加到ollama可能会对4位量化选项的性能产生影响:
在lm-eval的所有基准测试中,相对于FP16的性能达到99%以上,与FP16相似的推理速度。
url:
https://huggingface.co/mobiuslabsgmbh/Llama-3.1-70b-instruct_4bitgs64_hqq
另外还有:
https://huggingface.co/ModelCloud/Meta-Llama-3.1-70B-Instruct-gptq-4bit
2条答案
按热度按时间7cjasjjr1#
需要在llama.cpp中提供支持。已经提出了一些问题(ggerganov/llama.cpp#6368,ggerganov/llama.cpp#4782),但不幸的是,没有取得进展。
f4t66c6m2#
我也非常感兴趣地看到为这个添加支持。如果这有帮助,我会支付100美元的悬赏金。