magnum-v2.5-12b-kto 和 magnum-v2-12b 无法在ollama上运行,

bmvo0sr5  于 23天前  发布在  其他
关注(0)|答案(8)|浏览(29)

这个问题是由于在加载模型的超参数时出现了错误。具体来说,n_rot 的值为 160,但期望的值是 128。这可能是因为在将模型转换为 FP16 格式时,某些参数没有正确地进行缩放。

要解决这个问题,你可以尝试以下方法:

  1. 确保你使用的是最新版本的 Ollama。如果不是,请升级到最新版本并重试。
  2. 检查模型转换为 FP16 格式的过程是否正确。确保在转换过程中没有出现错误或遗漏。
  3. 如果问题仍然存在,可以尝试手动调整 n_rot 的值,使其与期望值相匹配。但请注意,这可能会影响模型的性能和准确性。
c2e8gylq

c2e8gylq2#

作者说"他们合并/修复了nemo推理。"我不明白这是什么意思。

56lgkhnf

56lgkhnf3#

你好,@Tuxaios,

你是否按照这里的说明导入了GGUF文件?

bejyjqdl

bejyjqdl4#

错误:加载模型超参数时出现异常错误:无效的n_rot值:160,期望值为128。
[root@ubuntu]$ ollama run magnum-v2.5:12b-kto
您好,先生。很高兴看到您的回复。我已经尝试了作者提供的GGUF量化模型,它们非常棒。现在,我想加载FP16模型,但遇到了一个错误:错误:加载模型超参数时出现异常错误:无效的n_rot值:160,期望值为128。我想请问有人知道如何解决这个问题吗?否则,我将不得不尝试TabbyAPI。

owfi6suc

owfi6suc5#

你好,FP16模型需要更多的RAM(或VRAM)空间。我的建议是让这个LLM的作者将其上传到Ollama库。在Ollama.com上,仅通过Llama3.1就获得了超过100万次下载,作者可以看到他们的LLM的潜力,并可能会被鼓励对模型进行任何必要的调整。

8ljdwjyq

8ljdwjyq6#

安全Tensor导入方法在Ollama中仅适用于有限的模型集。您可以使用llama.cpp将安全Tensor转换为GGUF格式,以导入Ollama无法导入的模型。
我已经安装了Docker,因此我转换模型的方法是:

docker run --rm -it -v .:/app/models ghcr.io/ggerganov/llama.cpp:full-cuda -c --outtype f16 /app/models

这将在当前目录中创建一个文件(Models-12B-F16.gguf),然后我将其传递给Ollama:

echo FROM Models-12B-F16.gguf > Modelfile
ollama create magnum-v2-12b

Ollama检测到chat模板并填充参数:

$ ollama show --modelfile magnum-v2-12b
# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM magnum-v2-12b:latest

FROM /root/.ollama/models/blobs/sha256-587d03f008224912b27034e98665dfbb8347f9b9eaa01d2e9968bb0299d5a72e
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

请注意,fp16是一个大型模型,运行需要一定的资源

$ ollama run magnum-v2-12b
>>> hello
Hello! How can I help you today?

>>> /bye
$ ollama ps
NAME                    ID              SIZE    PROCESSOR       UNTIL   
magnum-v2-12b:latest    0daea775ee7d    25 GB   36%/64% CPU/GPU Forever
yiytaume

yiytaume7#

安全Tensor导入方法在Ollama中仅适用于有限的模型集。您可以使用llama.cpp将安全Tensor转换为GGUF格式,以导入Ollama无法导入的模型。

我已经安装了Docker,因此我转换模型的方法是:

docker run --rm -it -v .:/app/models ghcr.io/ggerganov/llama.cpp:full-cuda -c --outtype f16 /app/models

这将在当前目录中创建一个文件(Models-12B-F16.gguf),然后我将其传递给Ollama:

echo FROM Models-12B-F16.gguf > Modelfile
ollama create magnum-v2-12b

Ollama检测到chat模板并填充参数:

$ ollama show --modelfile magnum-v2-12b
# Modelfile generated by "ollama show"
# To build a new Modelfile based on this, replace FROM with:
# FROM magnum-v2-12b:latest

FROM /root/.ollama/models/blobs/sha256-587d03f008224912b27034e98665dfbb8347f9b9eaa01d2e9968bb0299d5a72e
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

请注意,FP16是一个大型模型,运行需要一定的资源

$ ollama run magnum-v2-12b
>>> hello
Hello! How can I help you today?

>>> /bye
$ ollama ps
NAME                    ID              SIZE    PROCESSOR       UNTIL   
magnum-v2-12b:latest    0daea775ee7d    25 GB   36%/64% CPU/GPU Forever

非常感谢您的回复。使用GGUF是否会影响模型的准确性?我的硬件支持使用FP16。

b5lpy0ml

b5lpy0ml8#

GGUF文件是FP16格式。

相关问题