Paddle在数据并行单机多卡训练时,发现如果子进程训练失败的话,子进程会core dump,但主进程的退出状态是0,即正常退出。主进程的日志里会有ERROR日志记录哪张卡失败了,咨询一下这是一个设计还是一个bug呢?对比了下tf和torch,此时主进程的退出状态都是非0的
m2xkgtsf1#
你好,可以提供一下复现的代码、Paddle commit、设备等相关环境吗?
pgky5nke2#
这个是跑在我们自身的硬件上,用的是Paddle 2.3的包。gpu代码上也可以复现
x33g5p2x3#
GPU代码复现时,使用的cuda版本是什么呢?是否方便提供一下复现代码?
3条答案
按热度按时间m2xkgtsf1#
你好,可以提供一下复现的代码、Paddle commit、设备等相关环境吗?
pgky5nke2#
这个是跑在我们自身的硬件上,用的是Paddle 2.3的包。gpu代码上也可以复现
x33g5p2x3#
GPU代码复现时,使用的cuda版本是什么呢?是否方便提供一下复现代码?