我必须找到一些给定的数据集,其中我提供了用户id,显示名称,年龄,评论计数,查看计数,日期,得分和标题的每个人创建的帖子的最大数量。为了得到最多的帖子数量,我想,我们可以按用户id进行分组。现在,分组后,我需要检查列数最多的id。我不明白如何解决后一部分。请帮忙。
k7fdbhmy1#
作为什么,我从你的问题中理解。我给你相应的答复。让我们试试这个代码:
a = load '<path>' using PigStorage(',') as(userId,displayName,age,commentsCount,viewCount,date,score,title) b = group a by userId; c = foreach b generate group,COUNT(a.title); dump c;
1条答案
按热度按时间k7fdbhmy1#
作为什么,我从你的问题中理解。我给你相应的答复。
让我们试试这个代码: