hdfs的分裂逻辑?

ttygqcqt  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(346)

fileinputformat类的issplittable()方法的意义是什么?http://hadoop.apache.org/docs/r2.2.0/api/index.html

rmbxnbpk

rmbxnbpk1#

当issplitable返回false时,只有一个Map器处理整个文件。
您可以提供自己的fileinputformat实现,并根据需要为issplitable返回true/false。

5jdjgkvh

5jdjgkvh2#

如果文件是流压缩的,比如tar.gz或zip文件,并且记录的行数可变;同一条记录的一部分可能会落在一个块中,而记录的其余部分可能落在另一个块中。因此,为读取记录而编写的程序可能会崩溃。
因此,在这样的场景中,可以将issplittable()设置为false。

相关问题