spark错误容器因超出内存限制而被yarn杀死,rdd没有更多副本可用-原因是什么?

jxct1oxe  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(992)

我想知道那个错误到底是什么意思?我能够修复它(我用更大的机器创建了新的emr集群),但是我想了解一下为什么会发生这种情况。我的数据集有1.52亿条记录,当我试图将这些记录作为parquet写入磁盘时,就会出现这个错误。计算它们不会引起任何问题。在具有32台m5d.8XL类型机器的集群上,我遇到了错误。在有22台m5d.12xlarge类型i的机器的集群上,没有。在这两种情况下,数据集在代码中被划分为1024个分区。
错误如下所示:

Reason: Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead ...
BlockManagerMasterEndpoint: No more replicas available for rdd_...

如果有人知道问题是什么,请详细解释,就像我说的我知道如何解决这个问题,我只是不明白问题是什么。为什么写入磁盘会造成这样的瓶颈?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题