linux Slurm作业正在运行,但没有输出或错误

s3fp2yjn  于 9个月前  发布在  Linux
关注(0)|答案(1)|浏览(284)

我遇到了一个问题,Slurm作业提交到我们集群中的一个节点,该节点运行Rocky Linux 8.8。作业的状态为“R”,但它已经运行了一天多,没有产生任何输出或错误。
以前,此作业将在几分钟内完成,并且尝试取消正在运行的作业会导致其冻结在“CG”状态。
我尝试使用以下命令在节点上重新启动Slurm服务:
systemctl restart slurmd systemctl restart slurmd.service systemctl restart sshd
我也试过重启节点。
但是,问题仍然存在,并且在提交的不同作业中始终出现该问题。
什么会导致这个问题,以及如何解决它?
谢谢

mspsb9vt

mspsb9vt1#

这通常是由于某些I/O操作被阻塞导致的;作业无法写入文件系统,并且由于D state中的进程卡住,Slurm无法正确取消作业。从Slurm控制器视图来看,作业仍处于CG状态(“正在完成”)。
通常,失败的网络挂载(例如NFS)是罪魁祸首,但如果在节点重新启动后问题仍然存在,您可能应该查找失败的本地磁盘(本地擦除、操作系统磁盘等)。

相关问题