这个问题是由于在加载模型的超参数时出现了错误。具体来说,n_rot
的值为 160,但期望的值是 128。这可能是因为在将模型转换为 FP16 格式时,某些参数没有正确地进行缩放。
要解决这个问题,你可以尝试以下方法:
- 确保你使用的是最新版本的 Ollama。如果不是,请升级到最新版本并重试。
- 检查模型转换为 FP16 格式的过程是否正确。确保在转换过程中没有出现错误或遗漏。
- 如果问题仍然存在,可以尝试手动调整
n_rot
的值,使其与期望值相匹配。但请注意,这可能会影响模型的性能和准确性。
8条答案
按热度按时间5ktev3wc1#
以下是这两个模型的地址:
https://huggingface.co/anthracite-org/magnum-v2.5-12b-kto
https://huggingface.co/anthracite-org/magnum-v2-12b
c2e8gylq2#
作者说"他们合并/修复了nemo推理。"我不明白这是什么意思。
56lgkhnf3#
你好,@Tuxaios,
你是否按照这里的说明导入了GGUF文件?
bejyjqdl4#
错误:加载模型超参数时出现异常错误:无效的n_rot值:160,期望值为128。
[root@ubuntu]$ ollama run magnum-v2.5:12b-kto
您好,先生。很高兴看到您的回复。我已经尝试了作者提供的GGUF量化模型,它们非常棒。现在,我想加载FP16模型,但遇到了一个错误:错误:加载模型超参数时出现异常错误:无效的n_rot值:160,期望值为128。我想请问有人知道如何解决这个问题吗?否则,我将不得不尝试TabbyAPI。
owfi6suc5#
你好,FP16模型需要更多的RAM(或VRAM)空间。我的建议是让这个LLM的作者将其上传到Ollama库。在Ollama.com上,仅通过Llama3.1就获得了超过100万次下载,作者可以看到他们的LLM的潜力,并可能会被鼓励对模型进行任何必要的调整。
8ljdwjyq6#
安全Tensor导入方法在Ollama中仅适用于有限的模型集。您可以使用llama.cpp将安全Tensor转换为GGUF格式,以导入Ollama无法导入的模型。
我已经安装了Docker,因此我转换模型的方法是:
这将在当前目录中创建一个文件(Models-12B-F16.gguf),然后我将其传递给Ollama:
Ollama检测到chat模板并填充参数:
请注意,fp16是一个大型模型,运行需要一定的资源
yiytaume7#
安全Tensor导入方法在Ollama中仅适用于有限的模型集。您可以使用llama.cpp将安全Tensor转换为GGUF格式,以导入Ollama无法导入的模型。
我已经安装了Docker,因此我转换模型的方法是:
这将在当前目录中创建一个文件(Models-12B-F16.gguf),然后我将其传递给Ollama:
Ollama检测到chat模板并填充参数:
请注意,FP16是一个大型模型,运行需要一定的资源
非常感谢您的回复。使用GGUF是否会影响模型的准确性?我的硬件支持使用FP16。
b5lpy0ml8#
GGUF文件是FP16格式。