spark错误容器因超出内存限制而被yarn杀死，rdd没有更多副本可用-原因是什么？

jxct1oxe 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(1015)

我想知道那个错误到底是什么意思？我能够修复它（我用更大的机器创建了新的emr集群），但是我想了解一下为什么会发生这种情况。我的数据集有1.52亿条记录，当我试图将这些记录作为parquet写入磁盘时，就会出现这个错误。计算它们不会引起任何问题。在具有32台m5d.8XL类型机器的集群上，我遇到了错误。在有22台m5d.12xlarge类型i的机器的集群上，没有。在这两种情况下，数据集在代码中被划分为1024个分区。
错误如下所示：

Reason: Container killed by YARN for exceeding memory limits. 10.4 GB of 10.4 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead ...
BlockManagerMasterEndpoint: No more replicas available for rdd_...

如果有人知道问题是什么，请详细解释，就像我说的我知道如何解决这个问题，我只是不明白问题是什么。为什么写入磁盘会造成这样的瓶颈？

yarn scala apache-spark parquet Executor

来源：https://stackoverflow.com/questions/64814283/spark-error-container-killed-by-yarn-for-exceeding-memory-limits-no-more-replic

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark错误容器因超出内存限制而被yarn杀死，rdd没有更多副本可用-原因是什么？

暂无答案！

相关问题

热门标签

最新问答