为什么hadoop作业中只使用1个map和1个reduce任务以及1个节点?

2j4z5cfb  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(409)

我已经配置了一个3节点集群来运行wordcount mapreduce程序。我用的是一本659KB的书(http://www.gutenberg.org/ebooks/20417)作为试验数据。有趣的是,在该作业的webui中,只涉及1个map、1个reduce和1个node。我想知道这是不是因为数据太小。如果是,是否可以手动设置将数据拆分为多个节点上的不同Map?
谢谢,艾伦

bweufnob

bweufnob1#

默认块大小为64 mb。因此,是的,框架确实只分配了每种类型的一个任务,因为您的输入数据较小。
1) 您可以给出大于64MB的输入数据,然后看看会发生什么。
2) 更改的值 mapred.max.split.size 特定于mapreduce作业(在mapred-site.xml中或使用 -D mapred.max-split.size=noOfBytes )或者
3) 更改的值 dfs.block.size 它具有更大的全局范围,适用于所有HDF(在hdfs site.xml中)
不要忘记重新启动集群以应用更改,以防修改conf文件。

相关问题