在pig中查找重复项

kknvjkwl 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(333)

如果我有一个id有重复行的表，
我可以使用hive和下面的查询找到它

create table dupe as select * from table1 group by id having count(*) > 1;

我们能用pig执行同样的功能吗？
如果是的话，有人能帮我吗？

hadoop apache-pig

来源：https://stackoverflow.com/questions/19535276/finding-duplicates-in-pig

1条答案

按热度按时间

0yycz8jy1#

以下代码可以帮助您：

r1 = load ...;
r2 = group r1 by id;
r3 = foreach r2 generate COUNT(r1) as c, r1;
r4 = filter r3 by c > 1;
r5 = foreach r4 generate FLATTEN(r1);
dump r5;

不过，这一顺序并不保留。

赞(0）回复(0）举报 2021-06-04

我来回答

在pig中查找重复项

1条答案

相关问题

热门标签

最新问答