Spark任务失败,错误显示退出状态:-100

dxpyg8gm  于 2023-02-05  发布在  Apache
关注(0)|答案(3)|浏览(458)

在Yarn模式下运行的spark作业显示少数任务失败,原因如下:
ExecutorLostFailure(执行器36因运行任务之一而退出)原因:标记为失败的容器:主机上的容器_xxxxxxxxxx_yyyy_01_000054:ip-xxx-yy-zzz-zz。退出状态:-100诊断:在 lost 节点上释放容器
你知道为什么会这样吗?

khbbv19g

khbbv19g1#

主要有两个原因。
1.这可能是因为您的内存不足,纱箱所需的开销不够,解决方法是增加spark.executor.memoryOverhead
1.可能是因为从节点磁盘空间不足,无法写入spark所需的tmp数据。检查您的Yarn用户缓存目录(对于EMR,它位于/mnt/yarn/usercache/),
或键入df -h以检查磁盘剩余空间。

vc9ivgsu

vc9ivgsu2#

被框架终止的容器,无论是由于被应用程序释放还是由于节点故障等原因而“丢失”,都有一个特殊的退出代码-100。节点故障可能是因为没有足够的磁盘空间或执行器内存。

cmssoen2

cmssoen23#

我知道您的群集不在AWS上,但作为AWS MR群集的管理者,他们发布了常见问题解答
对于涂胶作业:https://aws.amazon.com/premiumsupport/knowledge-center/container-released-lost-node-100-glue/
电子病历:https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node/

相关问题