在recordreader初始化之前,hadoop emr作业内存不足

j2datikz  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(315)

我正在试图找出是什么原因导致我的emr作业在开始处理我的文件输入之前就耗尽了内存。在我的recordreader初始化之前(也就是说,在它试图解压文件并处理它们之前),我得到了一个“java.lang.outofmemoryerror cannot be cast to java.lang.exception”错误。我在一个包含大量输入的目录上运行我的作业。我可以在一个较小的输入集上运行我的作业。有人有什么想法吗?

tp5buhyn

tp5buhyn1#

我意识到答案是在主节点上有太多的元数据开销。主节点必须为要处理的每个文件存储约150 kb的数据。对于数以百万计的文件,这可能是千兆字节的数据,这是太多,并导致主节点崩溃。
以下是获取更多信息的好来源:http://www.inquidia.com/news-and-info/working-small-files-hadoop-part-1#sthash.yotxmqvh.dpuf

相关问题