ollama 充分利用所有GPU资源进行推理

6jygbczu  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(94)

问题是什么?

我使用了4个A30 GPU来推理qwen2-72b的模型。但即使在高峰时段,每张卡也没有被使用超过35%。与此同时,推理速度相对较慢。

操作系统

Linux,Docker

GPU

Nvidia

CPU

Intel

Ollama版本

0.2.0

unftdfkk

unftdfkk1#

模型被加载到所有4个GPU上,但每个GPU都没有完全使用。以下是GPU使用率的截图:

unftdfkk

unftdfkk2#

ollama ps 显示了什么?我预计这是在您的GPU上完全加载的,但这将排除部分CPU负载。
我的怀疑是PCI总线上有很多I/O操作,这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为仅使用2个GPU,强制将模型分配到较少的GPU上。如果性能显著提高,我们可以考虑对调度器进行优化,以便在尽可能少的GPU上进行分箱打包。今天它要么是1个,要么是全部,没有中间值,但您的用例可能从这一点受益。

0kjbasz6

0kjbasz63#

ollama ps 显示了什么?我预计这是在您的GPU上完全加载的,但这将排除部分CPU负载。
我的怀疑是PCI总线上有很多I/O操作,这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为GPU的2个,强制将模型放入较少的GPU中。如果这显著提高了性能,我们可以考虑对调度器进行优化,以便在尽可能少的GPU上进行bin-pack。今天它是1或全部,没有中间值,但您的用例可能从那里受益。
这是我感到困惑的另一个领域。自从我第一次使用ollama(可能是版本0.1.35)以来,我的ollama CLI命令没有更新。我现在无法使用'ollama ps'命令:

root@fdt-ai-cloud-master03:~# ollama ps
错误:未知命令 "ps" 用于 "ollama"
您是否指的是这个?
push
cp
rm

我将CUDA_VISIBLE_DEVICES设置为1,2以再次运行qwen2-72b,但推理速度变慢了。
以下是峰值GPU使用情况的截图:

相关问题