问题是什么?
主GPU选项没有按预期工作。
我的系统有两个GPU。我向/api/chat
发送了请求。
期望行为:模型加载在我的第二个GPU(即GPU 1)上。
实际行为:无论main_gpu
是0还是1,模型总是加载在我的第一个GPU(即GPU 0)上。
P.S. 这个模型可以自己适应任何GPU,一个GPU就足够加载所有的权重。
我知道我可以通过设置CUDA_VISIBLE_DEVICES
来指定要使用的GPU,就像#1813建议的那样。
但是使用环境变量不如请求中的参数灵活(每个请求都可以调整)。
也许这个参数没有正确传递给llama.cpp,或者llama.cpp没有像我们预期的那样选择GPU?
操作系统
Docker
GPU
Nvidia
CPU
AMD
Ollama版本
0.3.6
3条答案
按热度按时间ff29svar1#
服务器日志可能会揭示
main_gpu
为何表现不如预期的原因。tjrkku2a2#
两个GPU已经被检测到:
我传递了
"main_gpu": 1
指定的请求,这应该是b18a7f7a-1c7f-15b3-064d-6596d1a63015
但是接下来是:
这意味着它正在尝试使用
d1fa0558-2f75-4c4b-0720-8d90d6b01898
(而不是gpu 1)加载权重。btxsgosb3#
调度程序目前不会解释
main_gpu
设置以进行GPU选择。您可以通过GPU供应商特定的环境变量来过滤GPU。