ollama deepseek-coder-v2-lite flash attention not enabled

elcex8rz  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(16)

问题是什么?

当deepseek-coder-v2-lite的上下文长度限制达到时,模型只是重复之前的答案,即使在响应中要求其他内容,它也会一直循环。这个问题在LM Studio中得到了解决,因为启用了flash attention后,这个问题似乎得到了解决,但是在最新的ollama 0.1.48中仍然存在。
我怀疑这是模型本身的问题,但在LM Studio中使用flash attention似乎可以解决这个问题。需要帮助解决Ollama中的这个问题,因为在我看来,在Ollama中运行这个模型只比在没有num_gpu 0的LM Studio更快。
Ollama版本 - 0.1.48
使用的模型 - deepseek-coder-v2-lite-instruct-Q5_K_M

操作系统

macOS

GPU

Apple

CPU

Apple

Ollama版本

0.1.48

izkcnapc

izkcnapc1#

您可以通过在环境中设置OLLAMA_FLASH_ATTENTION=1来启用奥拉马的闪光注意力。

xdnvmnnf

xdnvmnnf2#

您可以通过在环境中设置OLLAMA_FLASH_ATTENTION=1来启用ollama的闪光灯注意力。
尝试以下操作并重新启动ollama,似乎不起作用。也许deepseek-coder-v2在ollama中为这个模型架构自动关闭了闪光灯注意力?不确定。

launchctl setenv OLLAMA_FLASH_ATTENTION 1
fhity93d

fhity93d3#

这是一个与llama.cpp相关的问题,当K和V头不同时,它会关闭flash注意力。

相关问题