问题是什么?
当从开始菜单托盘启动ollama时,它会启动一个名为ollama的服务,该服务立即使用大约4.5GB的RAM加载名为ollama.exe的模型。当使用API时,它会启动另一个名为ollama_llama_server.exe的程序,该程序使用大约4GB的RAM和近3GB的VRAM。
主要问题是,当ollama启动时,应该是olllama_server加载模型,而不是ollama.exe。在这张截图中,我通过API使用ollama,点击ollama后会加载模型,但忽略了已经在运行的服务器。
我不确定这是否是预期的行为,还有如何在不关闭服务的情况下阻止ollama在启动时加载模型。
操作系统:Windows
GPU:Nvidia
CPU:Intel
Ollama版本:0.1.48
1条答案
按热度按时间pbwdgjma1#
你有多少显存,以及加载的是什么型号?
ollama ps
模型加载后显示什么?