Paddle 退出主进程状态问题

ndasle7k  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(42)

请提出你的问题 Please ask your question

Paddle在数据并行单机多卡训练时,发现如果子进程训练失败的话,子进程会core dump,但主进程的退出状态是0,即正常退出。主进程的日志里会有ERROR日志记录哪张卡失败了,咨询一下这是一个设计还是一个bug呢?对比了下tf和torch,此时主进程的退出状态都是非0的

m2xkgtsf

m2xkgtsf1#

你好,可以提供一下复现的代码、Paddle commit、设备等相关环境吗?

pgky5nke

pgky5nke2#

这个是跑在我们自身的硬件上,用的是Paddle 2.3的包。gpu代码上也可以复现

x33g5p2x

x33g5p2x3#

GPU代码复现时,使用的cuda版本是什么呢?是否方便提供一下复现代码?

相关问题