更好的模型量化默认设置来自ollama.com

pobjuy32  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(39)

在模型中心点上,默认情况下,latest标签是否指向较旧的q4_0量化?较新的k_m/s据说更好,而且大小差异通常只是几百兆字节,如果它默认为这些而不是那些会更好。

vu8f3i0k

vu8f3i0k1#

困惑度差异(可用于衡量模型响应质量)列在这里:
ggerganov/llama.cpp#2094(注解)
相关行:
Q4_0 : 3.50G, +0.2499 ppl @ 7B
Q3_K_L : 3.35G, +0.1803 ppl @ 7B
Q4_K_S : 3.56G, +0.1149 ppl @ 7B
Q4_K_M : 3.80G, +0.0535 ppl @ 7B
F16 : 13.00G @ 7B
F16是困惑度的基线参考。
令人惊讶的是,尽管Q3_K_L比Q4_0更小,但其困惑度却更低。这也是“家伙”的建议:
Q4_0:遗留;小,高质量损失很大-建议使用Q3_K_M
我支持默认切换到Q4_K_M(最佳折衷方案)
如果不是因为大小增加而被要求,至少切换到Q3_K_M,它在任何方面都更好。

xurqigkl

xurqigkl2#

如果有人指出设置默认值的地方,我会创建一个PR。

3xiyfsfu

3xiyfsfu3#

感谢您分享这个。我们将努力让奥拉马网站有更合理的默认设置;对此表示抱歉。

gywdnpxw

gywdnpxw4#

感谢您的工作!

q35jwt9p

q35jwt9p5#

关于这个的更新情况如何?如果能默认为类似q4_k_m的内容就更好了。

相关问题