ollama AMD多GPU支持

uwopmtnx 于 5个月前发布在其他

关注(0)|答案(4)|浏览(150)

你好，

我认为当前的AMD ROCm与多张显卡的兼容性不佳。我有一个XTX 7900(24GB)和一个XT 7900(20GB)。我的处理器还有一个小型集成GPU,但这不应该是个问题。

当我尝试加载模型llama3.1:70b (39GB):

它没有崩溃，但是有无限的加载时间(至少10分钟，可能更多)。
我的电脑卡住了；我无法移动鼠标或做其他事情，包括使用Ctrl+C退出加载过程。
它只使用(不是非常积极地)一个GPU
CPU也在服务器进程中加载(只有几个核心),退出此模式的唯一方法是按电源按钮关机。

这是我的server.log

我可以尝试你们想让我做的任何事情，只要告诉我该怎么做(重新编译llama.cpp或其他什么)。

OS

Windows

GPU

AMD

CPU

AMD

Ollama版本

0.3.6

ollama

来源：https://github.com/ollama/ollama/issues/6356

4条答案

按热度按时间

drkbr07n1#

你的操作系统是Windows,所以这个评论可能不太有帮助，因为我们使用的是Linux。但是在Linux上，我们在多个GPU上运行没有问题。然而，我们需要回退到Rocm 6.1,因为最新生产的垃圾。

赞(0）回复(0）举报 5个月前

esbemjvw2#

很遗憾，ROCm在Windows上的API没有像Linux上那样准确地报告可用的空闲VRAM信息，因此我们默认禁用了并发。在某些情况下，如果有其他应用程序使用VRAM,我们可能会超出内存分配，导致RAM<->VRAM页面抖动，这可能会对系统产生显著的性能影响。一旦ROCm 6.2版本发布并在Windows上可用，我们相信API将开始报告准确的空闲VRAM信息。在此之前，您可以选择较小的模型，或者将`num_gpu`设置为比我们的默认算法确定的更小的值，以避免超出VRAM分配。

赞(0）回复(0）举报 5个月前

kmb7vmvb3#

无耻地站在@dhiltgen的肩膀上，在这里为在Linux上运行事物做广告。强烈推荐。一路走来都是开源软件。
好的，我现在就从我的讲台上下来。感谢你们的“倾听”，并祝愿你们在LLM之旅中一切顺利。

赞(0）回复(0）举报 5个月前

zc0qhyus4#

@dhiltgen在我的Ubuntu 22.04 LTS上花了更多时间使其正常运行。
我所做的：自定义环境变量HSA_OVERRIDE_GFX_VERSION=10.3.0和HIP_VISIBLE_DEVICES=0,1。这样ollama和系统可以看到我的显卡并开始加载。但是在几秒钟的加载后，它崩溃了，错误如下：
ERROR source=sched.go:451 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"
我还尝试使用较低的num_gpu创建自定义模型，但没有帮助。
这里是完整的转储信息：
linux_2amd_log.log
看起来是某个未知地方的问题，也许是另一个问题。但是设备变得可见了。有什么建议吗？

赞(0）回复(0）举报 5个月前

我来回答

ollama AMD多GPU支持

OS

GPU

CPU

Ollama版本

4条答案

相关问题

热门标签

最新问答