问题是什么?
首先,Ollama启动了两个进程来利用2个GPU(Nvidia RTX A5000)的容量来启动大型模型qwen2:72b。
然后,在处理完最后一个请求后,当针对相同模型的新请求到来时,Ollama会杀死当前进程并重新启动进程来加载相同的模型。
预期情况下,Ollama会在超时之前保持对相同模型的活跃状态。
Windows
Nvidia
Intel
0.3.2
hkmswyz61#
服务器日志将有助于调试。
kcrjzv8t2#
如果你指的是 ollama.exe 和 ollama_llama_server.exe,那么只有第二个进程连接到GPU。如果你看到两个 ollama_llama_server.exe 进程,那意味着你加载了两个模型。我的怀疑是,你可能在更改一些参数,导致模型重新加载。如果请求相同的模型和设置,它应该使用已经加载的模型。正如Rick提到的,日志将帮助了解发生了什么,以及这是预期的行为还是一个bug。
ollama.exe
ollama_llama_server.exe
klh5stk13#
你好,我遇到了同样的问题。我在Ubuntu 22.04上运行Ollama 0.3.4。请查看附件中的日志。ollama_troubleshooting_logs.txt请问您能帮助我们解决这个问题吗?谢谢顺祝商祺米格尔
laximzn54#
模型qwen2:72b-instruct-q4_0于8月11日09:20:23加载,然后在09:24:44再次加载,没有显示模型卸载的迹象。OLLAMA_KEEP_ALIVE=1小时0分钟0秒。当你再次看到这种情况发生时,你能在服务器环境中添加OLLAMA_DEBUG=1并添加日志吗?
OLLAMA_DEBUG=1
4条答案
按热度按时间hkmswyz61#
服务器日志将有助于调试。
kcrjzv8t2#
如果你指的是
ollama.exe
和ollama_llama_server.exe
,那么只有第二个进程连接到GPU。如果你看到两个ollama_llama_server.exe
进程,那意味着你加载了两个模型。我的怀疑是,你可能在更改一些参数,导致模型重新加载。如果请求相同的模型和设置,它应该使用已经加载的模型。正如Rick提到的,日志将帮助了解发生了什么,以及这是预期的行为还是一个bug。
klh5stk13#
你好,我遇到了同样的问题。
我在Ubuntu 22.04上运行Ollama 0.3.4。
请查看附件中的日志。
ollama_troubleshooting_logs.txt
请问您能帮助我们解决这个问题吗?
谢谢
顺祝商祺
米格尔
laximzn54#
模型qwen2:72b-instruct-q4_0于8月11日09:20:23加载,然后在09:24:44再次加载,没有显示模型卸载的迹象。OLLAMA_KEEP_ALIVE=1小时0分钟0秒。当你再次看到这种情况发生时,你能在服务器环境中添加
OLLAMA_DEBUG=1
并添加日志吗?