我很难使用hadoop map reduce来计算两个值之间的总和。
例如,我想计算 [1, 15000]
. 但据我所知,map reduce处理的数据有一些共同点(标签)。
我设法理解了该数据的模式:
doctor 23
doodle 34
doctor 2
doodle 5
这些是在给定文本中出现的单词find。
使用map reduce可以链接给定单词的值,如下所示:
doctor [(23 2)]
doodle [(34 5)]
然后计算这些值的和。
但是对于一个总额,我们从来没有像上面例子中的绳子一样的共同点。鉴于数据集:
DS1: 1 2 3 4 5 ..... 15000
是否可以使用map reduce架构计算列表中所有tot的总和?
1条答案
按热度按时间eiee3dmh1#
如果文本文件中有数字,可以用空格分隔,然后在Map器中进行拆分和求和,如下所示:
Map器:
作业控制:
感谢@cricket\u 007的建议。