当新请求到来时,如果2个GPU正在运行相同的大型模型,Ollama将重新启动进程,

w6lpcovy  于 5个月前  发布在  其他
关注(0)|答案(4)|浏览(61)

问题是什么?

首先,Ollama启动了两个进程来利用2个GPU(Nvidia RTX A5000)的容量来启动大型模型qwen2:72b。

然后,在处理完最后一个请求后,当针对相同模型的新请求到来时,Ollama会杀死当前进程并重新启动进程来加载相同的模型。

预期情况下,Ollama会在超时之前保持对相同模型的活跃状态。

操作系统

Windows

GPU

Nvidia

CPU

Intel

Ollama版本

0.3.2

hkmswyz6

hkmswyz61#

服务器日志将有助于调试。

kcrjzv8t

kcrjzv8t2#

如果你指的是 ollama.exeollama_llama_server.exe,那么只有第二个进程连接到GPU。如果你看到两个 ollama_llama_server.exe 进程,那意味着你加载了两个模型。
我的怀疑是,你可能在更改一些参数,导致模型重新加载。如果请求相同的模型和设置,它应该使用已经加载的模型。正如Rick提到的,日志将帮助了解发生了什么,以及这是预期的行为还是一个bug。

klh5stk1

klh5stk13#

你好,我遇到了同样的问题。
我在Ubuntu 22.04上运行Ollama 0.3.4。
请查看附件中的日志。
ollama_troubleshooting_logs.txt
请问您能帮助我们解决这个问题吗?
谢谢
顺祝商祺
米格尔

laximzn5

laximzn54#

模型qwen2:72b-instruct-q4_0于8月11日09:20:23加载,然后在09:24:44再次加载,没有显示模型卸载的迹象。OLLAMA_KEEP_ALIVE=1小时0分钟0秒。当你再次看到这种情况发生时,你能在服务器环境中添加OLLAMA_DEBUG=1并添加日志吗?

相关问题