如果我有一个id有重复行的表,我可以使用hive和下面的查询找到它
create table dupe as select * from table1 group by id having count(*) > 1;
我们能用pig执行同样的功能吗?如果是的话,有人能帮我吗?
0yycz8jy1#
以下代码可以帮助您:
r1 = load ...; r2 = group r1 by id; r3 = foreach r2 generate COUNT(r1) as c, r1; r4 = filter r3 by c > 1; r5 = foreach r4 generate FLATTEN(r1); dump r5;
不过,这一顺序并不保留。
1条答案
按热度按时间0yycz8jy1#
以下代码可以帮助您:
不过,这一顺序并不保留。