使用piglatin删除重复项并保留最后一个元素

ubbxdtey 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(379)

我在用拉丁语。我想把这些复制品从袋子里拿出来，保留这把钥匙的最后一个元素。

Input:
User1  7 LA 
User1  8 NYC 
User1  9 NYC 
User2  3 NYC
User2  4 DC 

Output:
User1  9 NYC 
User2  4 DC

这里第一个字段是一把钥匙。我想在输出中保留这个键的最后一条记录。
我知道如何保留第一个元素。具体如下。但无法保留最后一个元素。

inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
      top_rec = LIMIT inpt 1;
      GENERATE FLATTEN(top_rec);
};

有人能帮我吗？提前谢谢！

hadoop apache-pig datastage duplicate-removal

来源：https://stackoverflow.com/questions/32014330/removing-duplicates-using-piglatin-and-retaining-the-last-element

2条答案

按热度按时间

fdx2calv1#

好啊。。可以使用秩运算符。
希望下面的代码有帮助。

rec = LOAD '/user/cloudera/inputfiles/sample.txt' USING PigStorage(',') AS(user:chararray,no:int,loc:chararray);
 rec_rank = rank rec;                                                                                     
 rec_rank_each = FOREACH rec_rank GENERATE $0 as rank_key, user, no, loc;                                 
 rec_rank_grp = GROUP rec_rank_each by user; 
 rec_rank_max = FOREACH rec_rank_grp GENERATE group as temp_user, MAX(rec_rank_each.rank_key) as max_rank;
 rec_join = JOIN rec_rank_each BY (user,rank_key) , rec_rank_min BY(temp_user,max_rank);
 rec_output = FOREACH rec_join GENERATE user,no,loc;
 dump rec_output;

确保您从pig0.11版本运行这个命令，作为从pig0.11引入的rank操作符

赞(0）回复(0）举报 2021-06-04

f5emj3cl2#

@阿尼尔：如果你按一个字段降序排列。你就能拿到最后一张唱片了。在下面的代码中，按输入的第二个字段排序（字段名：脚本中的no）
输入：

User1,7,LA 
User1,8,NYC 
User1,9,NYC 
User2,3,NYC
User2,4,DC

pig代码段：

user_details = LOAD 'user_details.csv'  USING  PigStorage(',') AS (user_name:chararray,no:long,city:chararray);

user_details_grp_user = GROUP user_details BY user_name;

required_user_details = FOREACH user_details_grp_user {
    user_details_sorted_by_no = ORDER user_details BY no DESC;
    top_record = LIMIT user_details_sorted_by_no 1;
    GENERATE FLATTEN(top_record);
}

输出：转储所需的用户详细信息

(User1,9,NYC )
(User2,4,DC)

赞(0）回复(0）举报 2021-06-04

我来回答

使用piglatin删除重复项并保留最后一个元素

2条答案

相关问题

热门标签

最新问答