更好的模型量化默认设置来自ollama.com

pobjuy32 于 2个月前发布在其他

关注(0)|答案(6)|浏览(39)

在模型中心点上，默认情况下，latest标签是否指向较旧的q4_0量化？较新的k_m/s据说更好，而且大小差异通常只是几百兆字节，如果它默认为这些而不是那些会更好。

ollama

来源：https://github.com/ollama/ollama/issues/1543

6条答案

按热度按时间

vu8f3i0k1#

困惑度差异(可用于衡量模型响应质量)列在这里：
ggerganov/llama.cpp#2094(注解)
相关行：
Q4_0 : 3.50G, +0.2499 ppl @ 7B
Q3_K_L : 3.35G, +0.1803 ppl @ 7B
Q4_K_S : 3.56G, +0.1149 ppl @ 7B
Q4_K_M : 3.80G, +0.0535 ppl @ 7B
F16 : 13.00G @ 7B
F16是困惑度的基线参考。
令人惊讶的是，尽管Q3_K_L比Q4_0更小，但其困惑度却更低。这也是“家伙”的建议：
Q4_0:遗留；小，高质量损失很大-建议使用Q3_K_M
我支持默认切换到Q4_K_M(最佳折衷方案)
如果不是因为大小增加而被要求，至少切换到Q3_K_M,它在任何方面都更好。