在Yarn模式下运行的spark作业显示少数任务失败,原因如下:ExecutorLostFailure(执行器36因运行任务之一而退出)原因:标记为失败的容器:主机上的容器_xxxxxxxxxx_yyyy_01_000054:ip-xxx-yy-zzz-zz。退出状态:-100诊断:在 lost 节点上释放容器你知道为什么会这样吗?
khbbv19g1#
主要有两个原因。1.这可能是因为您的内存不足,纱箱所需的开销不够,解决方法是增加spark.executor.memoryOverhead1.可能是因为从节点磁盘空间不足,无法写入spark所需的tmp数据。检查您的Yarn用户缓存目录(对于EMR,它位于/mnt/yarn/usercache/),或键入df -h以检查磁盘剩余空间。
spark.executor.memoryOverhead
/mnt/yarn/usercache/
df -h
vc9ivgsu2#
被框架终止的容器,无论是由于被应用程序释放还是由于节点故障等原因而“丢失”,都有一个特殊的退出代码-100。节点故障可能是因为没有足够的磁盘空间或执行器内存。
cmssoen23#
我知道您的群集不在AWS上,但作为AWS MR群集的管理者,他们发布了常见问题解答对于涂胶作业:https://aws.amazon.com/premiumsupport/knowledge-center/container-released-lost-node-100-glue/电子病历:https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node/
3条答案
按热度按时间khbbv19g1#
主要有两个原因。
1.这可能是因为您的内存不足,纱箱所需的开销不够,解决方法是增加
spark.executor.memoryOverhead
1.可能是因为从节点磁盘空间不足,无法写入spark所需的tmp数据。检查您的Yarn用户缓存目录(对于EMR,它位于
/mnt/yarn/usercache/
),或键入
df -h
以检查磁盘剩余空间。vc9ivgsu2#
被框架终止的容器,无论是由于被应用程序释放还是由于节点故障等原因而“丢失”,都有一个特殊的退出代码-100。节点故障可能是因为没有足够的磁盘空间或执行器内存。
cmssoen23#
我知道您的群集不在AWS上,但作为AWS MR群集的管理者,他们发布了常见问题解答
对于涂胶作业:https://aws.amazon.com/premiumsupport/knowledge-center/container-released-lost-node-100-glue/
电子病历:https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node/