python OpenMPI节点无法识别群集中其他节点的IP

ebdffaop  于 2023-04-04  发布在  Python
关注(0)|答案(1)|浏览(166)

我是OpenMPI/并行计算的新手。我一直在遵循here指南,并且我已经完成了99%的指南,没有问题,这是最后的测试给了我问题,我还没有完全弄清楚哪里出了问题。当我执行“compute-pi”sbatch作业时,我遇到了这个错误。
Slurm Output File when submitting
然而,当我设置n=4(即在一个节点上运行)时,compute-pi运行得很好。此外,我还可以在所有节点上执行srun命令,因此主节点可以毫无问题地在集群中调度作业。我认为一旦节点必须开始相互通信,事情就会开始崩溃。
我希望slurm.out文件有一个计算出的pi的近似值,但它从来没有完成任务,因为这个问题。此外,我试图添加“--mca oob_tcp_if_include eth0 --mca btl_tcp_if_include eth0”到我在其他论坛上看到的命令,但这没有帮助。我还打开了所有的Iptables,以允许来自所有IP的流量,但同样没有工作。
任何建议都非常感谢。如果你需要更多的信息,让我知道,我很乐意效劳。

xytpbqjk

xytpbqjk1#

你也在这些节点上运行docker吗?你能运行ip addr并分享结果吗?(抱歉我在答案中添加了这些问题,但由于信誉分数不够高,无法添加评论)。
我问这些问题是因为我看到其他人在节点上并行运行docker时遇到了同样的问题:https://forums.developer.nvidia.com/t/open-mpi-network-setup/211658

相关问题