我使用了4个A30 GPU来推理qwen2-72b的模型。但即使在高峰时段,每张卡也没有被使用超过35%。与此同时,推理速度相对较慢。
Linux,Docker
Nvidia
Intel
0.2.0
unftdfkk1#
模型被加载到所有4个GPU上,但每个GPU都没有完全使用。以下是GPU使用率的截图:
unftdfkk2#
ollama ps 显示了什么?我预计这是在您的GPU上完全加载的,但这将排除部分CPU负载。我的怀疑是PCI总线上有很多I/O操作,这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为仅使用2个GPU,强制将模型分配到较少的GPU上。如果性能显著提高,我们可以考虑对调度器进行优化,以便在尽可能少的GPU上进行分箱打包。今天它要么是1个,要么是全部,没有中间值,但您的用例可能从这一点受益。
ollama ps
0kjbasz63#
ollama ps 显示了什么?我预计这是在您的GPU上完全加载的,但这将排除部分CPU负载。我的怀疑是PCI总线上有很多I/O操作,这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为GPU的2个,强制将模型放入较少的GPU中。如果这显著提高了性能,我们可以考虑对调度器进行优化,以便在尽可能少的GPU上进行bin-pack。今天它是1或全部,没有中间值,但您的用例可能从那里受益。这是我感到困惑的另一个领域。自从我第一次使用ollama(可能是版本0.1.35)以来,我的ollama CLI命令没有更新。我现在无法使用'ollama ps'命令:
root@fdt-ai-cloud-master03:~# ollama ps 错误:未知命令 "ps" 用于 "ollama" 您是否指的是这个? push cp rm
我将CUDA_VISIBLE_DEVICES设置为1,2以再次运行qwen2-72b,但推理速度变慢了。以下是峰值GPU使用情况的截图:
3条答案
按热度按时间unftdfkk1#
模型被加载到所有4个GPU上,但每个GPU都没有完全使用。以下是GPU使用率的截图:
unftdfkk2#
ollama ps
显示了什么?我预计这是在您的GPU上完全加载的,但这将排除部分CPU负载。我的怀疑是PCI总线上有很多I/O操作,这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为仅使用2个GPU,强制将模型分配到较少的GPU上。如果性能显著提高,我们可以考虑对调度器进行优化,以便在尽可能少的GPU上进行分箱打包。今天它要么是1个,要么是全部,没有中间值,但您的用例可能从这一点受益。
0kjbasz63#
ollama ps
显示了什么?我预计这是在您的GPU上完全加载的,但这将排除部分CPU负载。我的怀疑是PCI总线上有很多I/O操作,这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为GPU的2个,强制将模型放入较少的GPU中。如果这显著提高了性能,我们可以考虑对调度器进行优化,以便在尽可能少的GPU上进行bin-pack。今天它是1或全部,没有中间值,但您的用例可能从那里受益。
这是我感到困惑的另一个领域。自从我第一次使用ollama(可能是版本0.1.35)以来,我的ollama CLI命令没有更新。我现在无法使用'ollama ps'命令:
我将CUDA_VISIBLE_DEVICES设置为1,2以再次运行qwen2-72b,但推理速度变慢了。
以下是峰值GPU使用情况的截图: