拆分bzip2不起作用

jfgube3f 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(394)

我在hadoop中有1.2gb的文件，用bzip2编解码器压缩。我们的hadoopYarn集群有10个节点。hdfs块大小是128mb，所以我认为文件被分成10个块。bzip2应该是可拆分的编解码器，所以当我开始处理输入文件时，hadoop执行10个map任务（每个块一个）。但是当我查看作业日志时，我只能看到一个map任务。
我没有找到任何限制yarn中Map器数量的设置（与hadoop1相比）。
我错过了什么或者我做错了什么？
谢谢您

hadoop hdfs yarn bzip2 compression

来源：https://stackoverflow.com/questions/25744029/splitting-bzip2-is-not-working