我已经配置了一个3节点集群来运行wordcount mapreduce程序。我用的是一本659KB的书(http://www.gutenberg.org/ebooks/20417)作为试验数据。有趣的是,在该作业的webui中,只涉及1个map、1个reduce和1个node。我想知道这是不是因为数据太小。如果是,是否可以手动设置将数据拆分为多个节点上的不同Map?谢谢,艾伦
bweufnob1#
默认块大小为64 mb。因此,是的,框架确实只分配了每种类型的一个任务,因为您的输入数据较小。1) 您可以给出大于64MB的输入数据,然后看看会发生什么。2) 更改的值 mapred.max.split.size 特定于mapreduce作业(在mapred-site.xml中或使用 -D mapred.max-split.size=noOfBytes )或者3) 更改的值 dfs.block.size 它具有更大的全局范围,适用于所有HDF(在hdfs site.xml中)不要忘记重新启动集群以应用更改,以防修改conf文件。
mapred.max.split.size
-D mapred.max-split.size=noOfBytes
dfs.block.size
1条答案
按热度按时间bweufnob1#
默认块大小为64 mb。因此,是的,框架确实只分配了每种类型的一个任务,因为您的输入数据较小。
1) 您可以给出大于64MB的输入数据,然后看看会发生什么。
2) 更改的值
mapred.max.split.size
特定于mapreduce作业(在mapred-site.xml中或使用-D mapred.max-split.size=noOfBytes
)或者3) 更改的值
dfs.block.size
它具有更大的全局范围,适用于所有HDF(在hdfs site.xml中)不要忘记重新启动集群以应用更改,以防修改conf文件。