hadoop字段的不同计数

wqnecbli 于 2021-06-04 发布在 Hadoop

关注(0)|答案(3)|浏览(317)

我有一个文件，其格式如下：
1,5321234567
1,5324564321
1,5324564321
2,1234567643
2,1234567666
2,9875422345
3,5344435345
3,5344435345
3,5344435345
3,5344435345
3,5345345312
3,8767564564
在reduce过程的最后，我需要第二个字段的不同计数，第一个字段是关键。例如
1,2
2,3
3,3
java中最简单的map和reduce函数是什么？
tnx公司。

Java hadoop

来源：https://stackoverflow.com/questions/14582847/hadoop-distinct-count-of-a-field

3条答案

按热度按时间

3bygqnnd1#

如果我正确理解你的目标，你需要：
使每个键的值唯一
计算每个“键”的不同项目数
所以最简单的方法是这样的：
假设输入是{a，b}

MAP 1:
   Output Key  : {A,B}
   Output Value: 1
REDUCE 1:
   Input Key   : {A,B}
   Input Values: {1,1,1,...}
   Output Key  : A
   Output Value: B

MAP 2:
   Output Key  : A
   Output Value: 1
REDUCE 2:
   Input Key   : A
   Input Values: {1,1,1,...}
   Output Key  : A
   Output Value: SUM of all the values

赞(0）回复(0）举报 2021-06-04

esyap4oy2#

据我所知，您需要一个键的唯一值计数，而不是保留值。我们只需从记录中创建键，rest-hadoop framwork将负责为您排序唯一的记录。

map (IntWritable key, Text value, Context context) {

       context.write(value, new IntWritable(1)); 
    }

    reduce (Text key, Iterable<IntWritable> values, Context context) {

         long count = 0;
         for (Iterator<IntWritable> iterator = values.iterator(); iterator.hasNext();) {
              count+= iterator.next().get();
         }

         context.write(key, new LongWritable(count));
      }

减速器也可用作合路器。

赞(0）回复(0）举报 2021-06-04

zaq34kh63#

只是做分类。获取arraylist中的所有输入并进行排序。
这对你有帮助
数组

赞(0）回复(0）举报 2021-06-04