在mapreduce中的普通wordcount程序中,我们是否需要为shuffle和sort设置任何方法,否则框架将处理这个问题?
mgdq6dx11#
框架将处理这个问题。洗牌是将数据从Map器传输到还原器的过程,还原器按中间键(单词)的升序(词典)还原数据。您可以更改默认设置,但无需在wordcount程序中进行更改。您只需要设置一个Map器和一个减速机,还可以选择(但在速度上确实有帮助)一个组合器。甚至实现自己的Map器和缩减器也不是必需的,因为hadoop附带了wordcountMap器(tokencountermapper)和缩减器(intsumreducer,也可以用作组合器)的实现。
1条答案
按热度按时间mgdq6dx11#
框架将处理这个问题。洗牌是将数据从Map器传输到还原器的过程,还原器按中间键(单词)的升序(词典)还原数据。
您可以更改默认设置,但无需在wordcount程序中进行更改。您只需要设置一个Map器和一个减速机,还可以选择(但在速度上确实有帮助)一个组合器。
甚至实现自己的Map器和缩减器也不是必需的,因为hadoop附带了wordcountMap器(tokencountermapper)和缩减器(intsumreducer,也可以用作组合器)的实现。