问题是什么?
当我尝试运行模型时,我注意到一旦总图形内存使用量超过了显卡的专用图形内存大小,Ollama就会停止使用GPU进行推理。
我在任务管理器中看到显卡的利用率达到了0%。但是当我尝试使用低图形内存使用量的模型时,GPU利用率增加到了100%。
操作系统:Windows
GPU:Nvidia
CPU:Intel
Ollama版本:0.3.6
wgx48brx1#
服务器日志将提供更多关于正在发生的事情的洞察。但通常,OLLAMA会在GPU和CPU之间分配模型,尽可能多地在GPU上加载。然而,CPU的效率低于GPU,因此CPU上的层的推理将比GPU上的层花费更长的时间。这意味着GPU会有空闲时间,等待CPU推理完成。
1条答案
按热度按时间wgx48brx1#
服务器日志将提供更多关于正在发生的事情的洞察。但通常,OLLAMA会在GPU和CPU之间分配模型,尽可能多地在GPU上加载。然而,CPU的效率低于GPU,因此CPU上的层的推理将比GPU上的层花费更长的时间。这意味着GPU会有空闲时间,等待CPU推理完成。