ollama 如何仅在GPU模式下运行?

wgx48brx  于 4个月前  发布在  其他
关注(0)|答案(4)|浏览(52)

问题是什么?

我的模型有时在CPU上运行一半,在GPU上运行一半。当我运行ollam ps命令时,它显示49%在CPU上,51%在GPU上。我该如何配置以便始终仅在GPU模式下运行模型,但禁用CPU?
请帮助我

操作系统

Linux

GPU

  • 无响应*

CPU

  • 无响应*

Ollama版本

  • 无响应*
mwg9r5ms

mwg9r5ms1#

你的模型有多大,有多少显存?通常情况下,ollama会尽量将所有内容放入GPU中。如果无法实现,那么ollama计算出的可用显存将告诉它需要将一些数据溢出到CPU RAM中。nvidia-smi的输出是什么?

j8ag8udp

j8ag8udp2#

@janglichao,你能澄清一下"有时候"是什么意思吗?你是在加载相同的模型,有时它会加载100%的GPU资源,有时又加载约50/50的CPU/GPU资源,还是你在加载不同的模型?我们会尽量将尽可能多的模型加载到GPU中,但是你GPU上的VRAM数量会限制模型的大小,在需要溢出到CPU之前。
如果你在加载相同的模型时看到不同的行为,一个可能的解释可能是你有其他正在运行的应用,它们占用了不同的VRAM。你没有提到你使用的是哪种品牌的GPU,但如果你使用的是nvidia的,你可以使用nvidia-smi来查看GPU上运行的其他应用。
如果这不能解决问题,而且你认为这是一个bug,请详细描述你的场景并分享你的服务器日志,我会重新打开这个问题。

c7rzv4ha

c7rzv4ha3#

@janglichao,你能澄清一下"有时候"是什么意思吗?你是在加载相同的模型,有时它会100%地加载GPU,有时它会在CPU/GPU之间加载约50/50,还是你在加载不同的模型?我们会尽量将尽可能多的模型加载到GPU中,但是你的GPU上的VRAM数量会限制模型在溢出到CPU之前可以有多大。
如果你在加载相同的模型时看到不同的行为,一个可能的解释可能是你正在运行的其他应用程序占用了不同数量的VRAM。你没有提到你使用的是哪种品牌的GPU,但如果是nvidia的话,你可以使用nvidia-smi来查看GPU上运行的其他应用程序。
如果这不能解决问题,而且你认为这是一个bug,请详细描述一下你的情况,并分享一下服务器日志,我会重新打开这个问题。
我的GPU:v100*2
模型在GPU上的成本:42GB
这足以在GPU上完全加载模型,有时它只会在GPU 100%上运行,但有时它只是在CPU和GPU之间各占一半,我可以禁用强制仅在GPU上运行的CPU吗?

e4yzc0pl

e4yzc0pl4#

请在看到部分加载时,@janglichao 分享一份服务器日志,这样我才能知道为什么无法加载。

相关问题