如何使用mapreduce删除重复值

y3bcpkx1 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(285)

我的数据集如下-
关键字值
k1 a1、b1、c1、d1
k2 a2、b1、c2、d2
k3 a3、b1、c3、d3
k4 a4、b1、c4、d4
k5 a5、b1、c5、d5
在上面的数据集中，键是不同的，在值中有一个逗号分隔的值，即b1在所有值集中是公共的。我的要求是，如果这个值是相同的，那么在这些值中只有一个值应该被选为输出记录。简言之，我想删除重复值时，键是不同的。
有人能告诉我怎么接近吗？
我有以下建议-
答。就像在减速机端一样，我可以在集合中添加值，然后它会自动删除重复项。
但我想知道是否有任何解决方案，从Map减少框架方面，以确定重复的价值观，并删除他们。
期望输出-
k5 a5、b1、c5、d5
它应该采用上次出现重复值的最新键。
提前谢谢。

hadoop mapreduce

来源：https://stackoverflow.com/questions/38065737/how-to-remove-duplicate-values-using-mapreduce

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何使用mapreduce删除重复值

暂无答案！

相关问题

热门标签

最新问答