当新请求到来时，如果2个GPU正在运行相同的大型模型，Ollama将重新启动进程,

w6lpcovy 于 5个月前发布在其他

关注(0)|答案(4)|浏览(62)

问题是什么？

首先，Ollama启动了两个进程来利用2个GPU(Nvidia RTX A5000)的容量来启动大型模型qwen2:72b。

然后，在处理完最后一个请求后，当针对相同模型的新请求到来时，Ollama会杀死当前进程并重新启动进程来加载相同的模型。

预期情况下，Ollama会在超时之前保持对相同模型的活跃状态。

操作系统

Windows

GPU

Nvidia

CPU

Intel

Ollama版本

0.3.2

ollama

来源：https://github.com/ollama/ollama/issues/6271

4条答案

按热度按时间

hkmswyz61#

服务器日志将有助于调试。

赞(0）回复(0）举报 5个月前

kcrjzv8t2#

如果你指的是 ollama.exe 和 ollama_llama_server.exe,那么只有第二个进程连接到GPU。如果你看到两个 ollama_llama_server.exe 进程，那意味着你加载了两个模型。
我的怀疑是，你可能在更改一些参数，导致模型重新加载。如果请求相同的模型和设置，它应该使用已经加载的模型。正如Rick提到的，日志将帮助了解发生了什么，以及这是预期的行为还是一个bug。

赞(0）回复(0）举报 5个月前

klh5stk13#

你好，我遇到了同样的问题。
我在Ubuntu 22.04上运行Ollama 0.3.4。
请查看附件中的日志。
ollama_troubleshooting_logs.txt
请问您能帮助我们解决这个问题吗？
谢谢
顺祝商祺
米格尔

赞(0）回复(0）举报 5个月前

laximzn54#

模型qwen2:72b-instruct-q4_0于8月11日09:20:23加载，然后在09:24:44再次加载，没有显示模型卸载的迹象。OLLAMA_KEEP_ALIVE=1小时0分钟0秒。当你再次看到这种情况发生时，你能在服务器环境中添加OLLAMA_DEBUG=1并添加日志吗？

赞(0）回复(0）举报 5个月前