Ollama模型中心仍然使用默认的量化类型Q4_0,这是一种遗留格式,与K-quants(如Qn_K,例如Q4_K_M、Q6_K、Q5_K_L等)相比表现不佳。
- 将来上传到中心的模型是否将默认量化类型更改为Q4_K_M会更有意义?
参考
- https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix(注意,遗留量化类型甚至不会出现在特征矩阵上)。
- https://github.com/ggerganov/llama.cpp/wiki/Tensor-Encoding-Schemes
- https://www.reddit.com/r/LocalLLaMA/comments/1ba55rj/overview_of_gguf_quantization_methods/
- 困惑度(生成质量)分数ggerganov/llama.cpp#406(注解)
- Difference in different quantization methods ggerganov/llama.cpp#2094
- https://huggingface.co/datasets/christopherthompson81/quant_exploration
(如果已经存在此问题,抱歉-如果我的搜索失败了)
1条答案
按热度按时间nx7onnlm1#
我100%同意这个观点。这个决定本应该早就做出的。
由于这个原因,我在Ollama上的所有模型的默认值都是q4_K_M。