我有我分组和汇总的数据,看起来像这样-
Date Country Browser Count
---- ------- ------- -----
2015-07-11,US,Chrome,13
2015-07-11,US,Opera Mini,1
2015-07-11,US,Firefox,2
2015-07-11,US,IE,1
2015-07-11,US,Safari,1
...
2015-07-11,UK,Chrome Mobile,1026
2015-07-11,UK,IE,455
2015-07-11,UK,Mobile Safari,4782
2015-07-11,UK,Mobile Firefox,40
...
2015-07-11,DE,Android browser,1316
2015-07-11,DE,Opera Mini,3
2015-07-11,DE,PS4 Web browser,11
我想得到每个国家的前n个浏览器(按计数),并希望将其余浏览器汇总到“其他”下。我研究了pig的内置top函数,但如何在其他函数中进行分组。我想要的结果,例如(n=2)->
2015-07-11,US,Chrome,13
2015-07-11,US,Firefox,2
2015-07-11,US,Other,3
最好的办法是什么?
1条答案
按热度按时间ut6juiuv1#
好 啊。。这个要求很好。。
我只是在pig脚本的load语句中使用您的输入。
输入:
下面是代码。
您可以将n paramater的值传递给pig脚本,目前我在limit语句本身中为n设置了值2(即n=2)。
实际上我在下面的代码中硬编码了n=2。
输出