fileinputformat类的issplittable()方法的意义是什么?http://hadoop.apache.org/docs/r2.2.0/api/index.html
rmbxnbpk1#
当issplitable返回false时,只有一个Map器处理整个文件。您可以提供自己的fileinputformat实现,并根据需要为issplitable返回true/false。
5jdjgkvh2#
如果文件是流压缩的,比如tar.gz或zip文件,并且记录的行数可变;同一条记录的一部分可能会落在一个块中,而记录的其余部分可能落在另一个块中。因此,为读取记录而编写的程序可能会崩溃。因此,在这样的场景中,可以将issplittable()设置为false。
2条答案
按热度按时间rmbxnbpk1#
当issplitable返回false时,只有一个Map器处理整个文件。
您可以提供自己的fileinputformat实现,并根据需要为issplitable返回true/false。
5jdjgkvh2#
如果文件是流压缩的,比如tar.gz或zip文件,并且记录的行数可变;同一条记录的一部分可能会落在一个块中,而记录的其余部分可能落在另一个块中。因此,为读取记录而编写的程序可能会崩溃。
因此,在这样的场景中,可以将issplittable()设置为false。