由于deepseek v2编码器模型的结构,存在a problem with gibberish when k shift occurred.问题。为了解决这个问题,已经合并了在deepseek v2模型中发生k位移时导致GGML_ASSERT的a patch。
无论如何,解决此问题最简单的方法是在运行llama.cpp服务器时传递--predict -2
选项。此选项限制了预测令牌的数量,直到上下文已满。
在为ollama提供服务时,将n预测值设置为环境变量是一个好主意,或者在Modelfile中设置该值,以便将其作为--predict
值传递给NewLlamaServer
。
此外,如果可能的话,最好将其应用于ollama.com的Deepseek V2模型。
1条答案
按热度按时间jei2mxaa1#
我创建了一个补丁,以便在模型文件中添加设置
predict
的能力,但它并没有帮助解决 #5339 的输出问题。也许需要更新版本的 llama.cpp。