我在hadoop中有1.2gb的文件,用bzip2编解码器压缩。我们的hadoopYarn集群有10个节点。hdfs块大小是128mb,所以我认为文件被分成10个块。bzip2应该是可拆分的编解码器,所以当我开始处理输入文件时,hadoop执行10个map任务(每个块一个)。但是当我查看作业日志时,我只能看到一个map任务。我没有找到任何限制yarn中Map器数量的设置(与hadoop1相比)。我错过了什么或者我做错了什么?谢谢您
h43kikqp1#
我从未使用过bzip2,但我认为这个问题可能与您的 fileInputFormat 您可能还需要配置您的fileinputformat plz看看这个答案。
fileInputFormat
1条答案
按热度按时间h43kikqp1#
我从未使用过bzip2,但我认为这个问题可能与您的
fileInputFormat
您可能还需要配置您的fileinputformat plz看看这个答案。