ollama 充分利用所有GPU资源进行推理

ollama ps 显示了什么？我预计这是在您的GPU上完全加载的，但这将排除部分CPU负载。
我的怀疑是PCI总线上有很多I/O操作，这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为仅使用2个GPU,强制将模型分配到较少的GPU上。如果性能显著提高，我们可以考虑对调度器进行优化，以便在尽可能少的GPU上进行分箱打包。今天它要么是1个，要么是全部，没有中间值，但您的用例可能从这一点受益。

赞(0）回复(0）举报 2个月前

0kjbasz63#

ollama ps 显示了什么？我预计这是在您的GPU上完全加载的，但这将排除部分CPU负载。
我的怀疑是PCI总线上有很多I/O操作，这就是瓶颈所在。您可以尝试实验并将CUDA_VISIBLE_DEVICES设置为GPU的2个，强制将模型放入较少的GPU中。如果这显著提高了性能，我们可以考虑对调度器进行优化，以便在尽可能少的GPU上进行bin-pack。今天它是1或全部，没有中间值，但您的用例可能从那里受益。
这是我感到困惑的另一个领域。自从我第一次使用ollama(可能是版本0.1.35)以来，我的ollama CLI命令没有更新。我现在无法使用'ollama ps'命令：

root@fdt-ai-cloud-master03:~# ollama ps
错误：未知命令 "ps" 用于 "ollama"
您是否指的是这个？
push
cp
rm

我将CUDA_VISIBLE_DEVICES设置为1,2以再次运行qwen2-72b,但推理速度变慢了。
以下是峰值GPU使用情况的截图：

赞(0）回复(0）举报 2个月前

我来回答

ollama 充分利用所有GPU资源进行推理

问题是什么？

操作系统

GPU

CPU

Ollama版本

3条答案

相关问题

热门标签

最新问答