vllm [Bug]: Gloo 库无法在两台计算机之间进行通信

ego6inou  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(29)

根据您提供的信息,这个问题可能是由于Gloo连接全网格失败导致的。为了解决这个问题,您可以尝试以下方法:

  1. 确保您的两台笔记本之间的网络连接正常,没有防火墙或其他限制。
  2. 检查您的代码中是否正确设置了分布式训练的相关参数,例如进程数、设备数量等。
  3. 尝试更新或降级PyTorch和相关库的版本,以排除版本不兼容的问题。
  4. 如果问题仍然存在,您可以尝试在GitHub上查找相关的issue或者提交一个新的issue,详细描述您遇到的问题以及已经尝试过的解决方法。这将有助于开发者更好地理解和解决问题。
voj3qocg

voj3qocg1#

@JKYtydt 我也遇到了同样的问题:我可能错了,但我认为你需要在设置ray集群之前设置变量GLOO_SOCKET_IFNAME,而不是在你的Python脚本中。当你运行Python脚本时,ray集群已经创建了,我认为在这个相同的脚本中设置变量没有效果。

mqxuamgl

mqxuamgl2#

是的,我在设置射线簇之前也设置了环境变量,但是仍然没有解决这个问题。不过,当我用两台服务器进行推理时,设置环境变量解决了这个问题。所以我在想,是不是因为无法用两台笔记本去推理呢?

webghufk

webghufk3#

正确的NCCL变量是"NCCL_SOCKET_IFNAME",你那里有一个拼写错误。

aydmsdu9

aydmsdu94#

您好,可能是打错了,脚本运行的时候是正确的,我依旧没有找到相关的解决办法,不知道是不是因为两台电脑无法通信。

相关问题