vllm [Bug]: ValueError:所需GPU数量超过集群中可用GPU的总数,

kx7yvsdv  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(43)

这个错误信息表示,你尝试在集群中部署的模型需要的GPU数量超过了集群中可用的GPU总数。尽管你提到你有8张GPU,但可能有些GPU没有被正确地识别或者不可用。

你可以尝试以下步骤来解决这个问题:

  1. 检查你的GPU是否都已经被正确地安装和配置。你可以使用nvidia-smi命令来查看你的GPU状态。

  2. 确保你的深度学习框架(如TensorFlow或PyTorch)已经正确地安装并支持GPU加速。

  3. 如果你在使用Docker,确保你的Docker容器有足够的权限来访问你的GPU设备。

  4. 如果问题仍然存在,你可能需要检查你的集群配置,看看是否有任何限制阻止了GPU的使用。

dvtswwa3

dvtswwa31#

[信息 08-03 15:45:34] config.py:715 ] 默认使用ray进行分布式推理
如果您有8个GPU,通常它应该默认使用多进程。这条日志意味着您可能设置了CUDA_VISIBLE_DEVICES,程序只能看到部分GPU。这就是为什么它尝试使用ray的原因。

相关问题