Ollama在Linux挂起/恢复后无法与CUDA一起工作,与其他CUDA服务不同,

63lcw9qa  于 2个月前  发布在  Linux
关注(0)|答案(2)|浏览(50)

问题是什么?

Linux每次从挂起状态恢复时,都无法正确重新加载CUDA。然而,这个问题已经通过使用命令如sudo rmmod nvidia_uvmsudo modprobe nvidia_uvm得到了很好的解决。在此之后,除了Ollama之外的所有依赖CUDA的服务都可以利用CUDA并再次正常工作(例如,torch.randn((2,2)).cuda(0))。要恢复Ollama的GPU模式,只能通过重新启动Ollama服务来实现。这可以通过重新加载systemd并重启Ollama来完成:systemctl daemon-reloadsystemctl restart ollama。我不确定是否遗漏了某些特定的Ollama设置,所以我已经将此报告为一个bug。

操作系统

Linux

GPU

Nvidia

CPU

Intel

Ollama版本

0.1.48

ohtdti5x

ohtdti5x1#

你能分享一个服务器日志,显示在GPU无法工作后恢复失败的情况吗?

vwhgwdsa

vwhgwdsa2#

请分享一个服务器日志,显示在GPU不工作后恢复时出现的失败。
2024-07-04T22:08:25.348 [DEBUG] [gpu.go:454] 正在搜索GPU库
2024-07-04T22:08:25.350 [DEBUG] [gpu.go:488] 发现GPU库路径:[/usr/lib/i386-linux-gnu/libcuda.so.550.67, /usr/lib/x86_64-linux-gnu/libcuda.so.550.67]
2024-07-04T22:08:25.350 [ERROR] [gpu.go:517] 无法加载nvcuda库:/usr/lib/i386-linux-gnu/libcuda.so.550.67,错误信息:无法加载/usr/lib/i386-linux-gnu/libcuda.so.550.67库以查询Nvidia GPU:/usr/lib/i386-linux-gnu/libcuda.so.550.67,错误原因:ELF类错误,ELFCLASS32
2024-07-04T22:08:25.352 [DEBUG] [gpu.go:517] 无法加载nvcuda库:/usr/lib/x86_64-linux-gnu/libcuda.so.550.67,错误信息:nvcuda初始化失败:999
2024-07-04T22:08:25.352 [ERROR] [gpu.go:517] cuInit错误代码:999
2024-07-04T22:08:25.353 [DEBUG] [gpu.go:435] 正在搜索GPU库名称:libcudart.so*
2024-07-04T22:08:25.353 [DEBUG] [gpu.go:454] 正在搜索GPU库globs:[/home/bwnjnoei/libcudart.so**, /tmp/ollama558219018/runners/cuda*/libcudart.so*, /usr/local/cuda/lib64/libcudart.so*, /usr/lib/x86_64-linux-gnu/nvidia/current/libcudart.so*, /usr/lib/x86_64-linux-gnu/libcudart.so*, /usr/lib/wsl/lib/libcudart.so*, /usr/lib/wsl/drivers//libcudart.so, /opt/cuda/lib64/libcudart.so*, /usr/local

相关问题