vllm [Bug]: ValueError:所需GPU数量超过集群中可用GPU的总数,

kx7yvsdv 于 4个月前发布在其他

关注(0)|答案(1)|浏览(43)

这个错误信息表示，你尝试在集群中部署的模型需要的GPU数量超过了集群中可用的GPU总数。尽管你提到你有8张GPU,但可能有些GPU没有被正确地识别或者不可用。

你可以尝试以下步骤来解决这个问题：

检查你的GPU是否都已经被正确地安装和配置。你可以使用nvidia-smi命令来查看你的GPU状态。
确保你的深度学习框架(如TensorFlow或PyTorch)已经正确地安装并支持GPU加速。
如果你在使用Docker,确保你的Docker容器有足够的权限来访问你的GPU设备。
如果问题仍然存在，你可能需要检查你的集群配置，看看是否有任何限制阻止了GPU的使用。

来源：https://github.com/vllm-project/vllm/issues/7107

1条答案

按热度按时间

[信息 08-03 15:45:34] config.py:715 ] 默认使用ray进行分布式推理
如果您有8个GPU,通常它应该默认使用多进程。这条日志意味着您可能设置了CUDA_VISIBLE_DEVICES,程序只能看到部分GPU。这就是为什么它尝试使用ray的原因。

赞(0）回复(0）举报 4个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前