ollama AMD多GPU支持

uwopmtnx  于 22天前  发布在  其他
关注(0)|答案(4)|浏览(19)

你好,

我认为当前的AMD ROCm与多张显卡的兼容性不佳。我有一个XTX 7900(24GB)和一个XT 7900(20GB)。我的处理器还有一个小型集成GPU,但这不应该是个问题。

当我尝试加载模型llama3.1:70b (39GB):

  1. 它没有崩溃,但是有无限的加载时间(至少10分钟,可能更多)。

  2. 我的电脑卡住了;我无法移动鼠标或做其他事情,包括使用Ctrl+C退出加载过程。

  3. 它只使用(不是非常积极地)一个GPU

  4. CPU也在服务器进程中加载(只有几个核心),退出此模式的唯一方法是按电源按钮关机。

这是我的server.log

我可以尝试你们想让我做的任何事情,只要告诉我该怎么做(重新编译llama.cpp或其他什么)。

OS

Windows

GPU

AMD

CPU

AMD

Ollama版本

0.3.6

drkbr07n

drkbr07n1#

你的操作系统是Windows,所以这个评论可能不太有帮助,因为我们使用的是Linux。但是在Linux上,我们在多个GPU上运行没有问题。然而,我们需要回退到Rocm 6.1,因为最新生产的垃圾。

esbemjvw

esbemjvw2#

很遗憾,ROCm在Windows上的API没有像Linux上那样准确地报告可用的空闲VRAM信息,因此我们默认禁用了并发。在某些情况下,如果有其他应用程序使用VRAM,我们可能会超出内存分配,导致RAM<->VRAM页面抖动,这可能会对系统产生显著的性能影响。一旦ROCm 6.2版本发布并在Windows上可用,我们相信API将开始报告准确的空闲VRAM信息。在此之前,您可以选择较小的模型,或者将`num_gpu`设置为比我们的默认算法确定的更小的值,以避免超出VRAM分配。
kmb7vmvb

kmb7vmvb3#

无耻地站在@dhiltgen的肩膀上,在这里为在Linux上运行事物做广告。强烈推荐。一路走来都是开源软件。
好的,我现在就从我的讲台上下来。感谢你们的“倾听”,并祝愿你们在LLM之旅中一切顺利。

zc0qhyus

zc0qhyus4#

@dhiltgen在我的Ubuntu 22.04 LTS上花了更多时间使其正常运行。
我所做的:自定义环境变量HSA_OVERRIDE_GFX_VERSION=10.3.0和HIP_VISIBLE_DEVICES=0,1。这样ollama和系统可以看到我的显卡并开始加载。但是在几秒钟的加载后,它崩溃了,错误如下:
ERROR source=sched.go:451 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"
我还尝试使用较低的num_gpu创建自定义模型,但没有帮助。
这里是完整的转储信息:
linux_2amd_log.log
看起来是某个未知地方的问题,也许是另一个问题。但是设备变得可见了。有什么建议吗?

相关问题