Ability to pass --predict to llama.cpp server in ollama

l7wslrjt 于 2个月前发布在其他

关注(0)|答案(1)|浏览(38)

由于deepseek v2编码器模型的结构，存在a problem with gibberish when k shift occurred.问题。为了解决这个问题，已经合并了在deepseek v2模型中发生k位移时导致GGML_ASSERT的a patch。
无论如何，解决此问题最简单的方法是在运行llama.cpp服务器时传递--predict -2选项。此选项限制了预测令牌的数量，直到上下文已满。
在为ollama提供服务时，将n预测值设置为环境变量是一个好主意，或者在Modelfile中设置该值，以便将其作为--predict值传递给NewLlamaServer。
此外，如果可能的话，最好将其应用于ollama.com的Deepseek V2模型。

ollama

来源：https://github.com/ollama/ollama/issues/5791