ollama Mixtral 8x22b推理输出为空或乱码

dsekswqp  于 1个月前  发布在  其他
关注(0)|答案(2)|浏览(34)

问题是什么?

Mixtral 8x22b指令输出为空或乱码。
我尝试了各种量化:q4, q4_k_m, q5等。似乎都存在问题。
其他模型(例如,llama3, command-r, Mistral等)运行正常。
运行2x Nvidia 3090 GPUs = 48gb vram, 4.9 GHz AMD Ryzen 9 5950X, 128gb ram。

操作系统

Linux

GPU

Nvidia

CPU

AMD

Ollama版本

0.1.48

wsewodh2

wsewodh21#

在LM Studio上也进行了测试,运行良好。

zysjyyx4

zysjyyx42#

我没有相同的设置,但在双3060设置中,模型加载并运行,尽管速度较慢(1.64 tps)。
我的怀疑是我们的内存预测和加载了约1个过多的层,导致某种类型的损坏。你能分享你的服务器日志吗?这样我们可以看到内存预测和层计数。你也可以尝试让它加载更少的层,看看是否能正常工作。

% curl http://localhost:11434/api/generate -d '{
  "model": "mixtral:8x22b",
  "prompt": "hello",
  "stream": false, "options": {"num_gpu": 12 }
}'

请确保升级到最新版本。

相关问题