你好,
我认为当前的AMD ROCm与多张显卡的兼容性不佳。我有一个XTX 7900(24GB)和一个XT 7900(20GB)。我的处理器还有一个小型集成GPU,但这不应该是个问题。
当我尝试加载模型llama3.1:70b (39GB):
它没有崩溃,但是有无限的加载时间(至少10分钟,可能更多)。
我的电脑卡住了;我无法移动鼠标或做其他事情,包括使用Ctrl+C退出加载过程。
它只使用(不是非常积极地)一个GPU
CPU也在服务器进程中加载(只有几个核心),退出此模式的唯一方法是按电源按钮关机。
这是我的server.log
我可以尝试你们想让我做的任何事情,只要告诉我该怎么做(重新编译llama.cpp或其他什么)。
OS
Windows
GPU
AMD
CPU
AMD
Ollama版本
0.3.6
4条答案
按热度按时间drkbr07n1#
你的操作系统是Windows,所以这个评论可能不太有帮助,因为我们使用的是Linux。但是在Linux上,我们在多个GPU上运行没有问题。然而,我们需要回退到Rocm 6.1,因为最新生产的垃圾。
esbemjvw2#
kmb7vmvb3#
无耻地站在@dhiltgen的肩膀上,在这里为在Linux上运行事物做广告。强烈推荐。一路走来都是开源软件。
好的,我现在就从我的讲台上下来。感谢你们的“倾听”,并祝愿你们在LLM之旅中一切顺利。
zc0qhyus4#
@dhiltgen在我的Ubuntu 22.04 LTS上花了更多时间使其正常运行。
我所做的:自定义环境变量HSA_OVERRIDE_GFX_VERSION=10.3.0和HIP_VISIBLE_DEVICES=0,1。这样ollama和系统可以看到我的显卡并开始加载。但是在几秒钟的加载后,它崩溃了,错误如下:
ERROR source=sched.go:451 msg="error loading llama server" error="llama runner process has terminated: signal: segmentation fault (core dumped)"
我还尝试使用较低的num_gpu创建自定义模型,但没有帮助。
这里是完整的转储信息:
linux_2amd_log.log
看起来是某个未知地方的问题,也许是另一个问题。但是设备变得可见了。有什么建议吗?