java—如何在hadoop中序列化非常大的可写对象

huus2vyu 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(345)

hadoop可写接口依赖于 "public void write(DataOutput out)" 方法。在dataoutput接口后面，hadoop使用dataoutputstream，它在封面下使用了一个简单的数组。
当我尝试在我的reducer中的dataoutput中写入大量数据时，我得到：
原因：java.lang.outofmemoryerror:请求的数组大小超出了java.util.arrays.copyof（arrays）的vm限制。java:3230)在java.io.bytearrayoutputstream.grow（bytearrayoutputstream。java:113)在java.io.bytearrayoutputstream.ensurecapacity（bytearrayoutputstream。java:93)在java.io.bytearrayoutputstream.write（bytearrayoutputstream。java:140)在java.io.dataoutputstream.write（dataoutputstream。java:107)在java.io.filteroutputstream.write（filteroutputstream。java:97)
看起来系统无法分配请求大小的连续数组。显然，增加reducer可用的堆大小并没有帮助—它已经达到84gb（-xmx84g）
如果我不能减小需要序列化的对象的大小（因为reducer通过组合对象数据来构造这个对象），我应该如何解决这个问题？

Java hadoop mapreduce serialization writable

来源：https://stackoverflow.com/questions/25442809/how-to-serialize-very-large-object-in-hadoop-writable