如何从MapReduce程序中获得唯一的键和值?

bxgwgixi  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(297)

从减速机,我得到以下输出。

key     value
1       apple
2       apple
3       apple
4       orange
5       orange

但是,我需要以下输出:

key     value
1       apple
4       orange

正确的方法是什么?

ccgok5k5

ccgok5k51#


此图显示字数计数流。
可以通过以下方式实现:
1.pig脚本(内部生成map reduce作业)对于非java开发人员,您需要安装pig。
你需要在hdfs中输入文件。
然后在gruntshell或hue中使用以下代码(不管您有什么选项)

lines = LOAD 'path of input file' AS (line:chararray);

words = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) as word;

grouped = GROUP words BY word;

wordcount = FOREACH grouped GENERATE group, COUNT(words);

DUMP wordcount;

MapReduce编码对于java开发人员来说,您必须将MapReduceAPI与java结合使用
请参阅本教程。
https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

相关问题