如何使用mapreduce删除重复值

y3bcpkx1  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(285)

我的数据集如下-
关键字值
k1 a1、b1、c1、d1
k2 a2、b1、c2、d2
k3 a3、b1、c3、d3
k4 a4、b1、c4、d4
k5 a5、b1、c5、d5
在上面的数据集中,键是不同的,在值中有一个逗号分隔的值,即b1在所有值集中是公共的。我的要求是,如果这个值是相同的,那么在这些值中只有一个值应该被选为输出记录。简言之,我想删除重复值时,键是不同的。
有人能告诉我怎么接近吗?
我有以下建议-
答。就像在减速机端一样,我可以在集合中添加值,然后它会自动删除重复项。
但我想知道是否有任何解决方案,从Map减少框架方面,以确定重复的价值观,并删除他们。
期望输出-
k5 a5、b1、c5、d5
它应该采用上次出现重复值的最新键。
提前谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题