多个gz文件转到一个hadoop节点

8wtpewkr 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(228)

我有7个非常大的gz文件，每个都有10g字节的数据，还有100个小的bzip2文件，每个只有10m字节。我在hadoop集群中有10台机器，每台机器有8个核心。当我启动map reduce作业时，100个小bzip2文件将在1分钟内完成。7个大的gz文件需要很长时间。我的问题是：为什么7个gz文件只去一台机器，即使我有10台机器在那里，它导致一台机器工作非常努力，而其他9台机器几乎什么都不做。我对此很好奇，我试着设置mapred.tasktracker.map.tasks.maximum=1，这意味着只有一个任务会同时在一台机器上运行，但是设置了这个之后，我仍然在一台机器上运行了7个文件，即7个mappers（JVM）同时在一台机器上运行。
请帮我把7个Map器扇出到7台机器而不是一台机器，提前谢谢！

hadoop mapreduce GZIP bzip2

来源：https://stackoverflow.com/questions/25814822/multiple-gz-files-go-to-one-hadoop-node