Spark任务失败，错误显示退出状态：-100

dxpyg8gm 于 2023-02-05 发布在 Apache

关注(0)|答案(3)|浏览(458)

在Yarn模式下运行的spark作业显示少数任务失败，原因如下：
ExecutorLostFailure（执行器36因运行任务之一而退出）原因：标记为失败的容器：主机上的容器_xxxxxxxxxx_yyyy_01_000054：ip-xxx-yy-zzz-zz。退出状态：-100诊断：在 lost 节点上释放容器
你知道为什么会这样吗？

apache-spark

来源：https://stackoverflow.com/questions/44584016/spark-tasks-fail-with-error-showing-exit-status-100

3条答案

按热度按时间

khbbv19g1#

主要有两个原因。
1.这可能是因为您的内存不足，纱箱所需的开销不够，解决方法是增加spark.executor.memoryOverhead
1.可能是因为从节点磁盘空间不足，无法写入spark所需的tmp数据。检查您的Yarn用户缓存目录（对于EMR，它位于/mnt/yarn/usercache/），
或键入df -h以检查磁盘剩余空间。

赞(0）回复(0）举报 2023-02-05

vc9ivgsu2#

被框架终止的容器，无论是由于被应用程序释放还是由于节点故障等原因而“丢失”，都有一个特殊的退出代码-100。节点故障可能是因为没有足够的磁盘空间或执行器内存。

赞(0）回复(0）举报 2023-02-05

cmssoen23#

我知道您的群集不在AWS上，但作为AWS MR群集的管理者，他们发布了常见问题解答
对于涂胶作业：https://aws.amazon.com/premiumsupport/knowledge-center/container-released-lost-node-100-glue/
电子病历：https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node/

赞(0）回复(0）举报 2023-02-05