LongWriter模型擅长在单个回复中编写长篇内容。我已成功导入QuantFactory/LongWriter-llama3.1-8b-GGUF,因此可以直接上传。我尝试将QuantPanda/LongWriter-glm4-9B-GGUF中的F32版本量化为Q4_0版本,以便我能在GPU上加载所有层,但量化失败了,错误信息为“Error: quantization is only supported for F16 and F32 models”,所以请创建一个Q4_0版本并上传。
kgsdhlau1#
我尝试导入QuantPanda/LongWriter-glm4-9B-GGUF的Q4_K_M版本,但也失败了,可能当前的Ollama版本不支持LongWriter-glm4-9B。
1条答案
按热度按时间kgsdhlau1#
我尝试导入QuantPanda/LongWriter-glm4-9B-GGUF的Q4_K_M版本,但也失败了,可能当前的Ollama版本不支持LongWriter-glm4-9B。