pig-尝试在表中查找月份组的最大值

s3fp2yjn  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(278)


上图表示下面的generate语句,并对其进行了描述

D = FOREACH C GENERATE $0 AS time, $1 AS perf_temp_count;

  DUMP D;
  DESCRIBE D;

我的问题是目前只有以上是我的月和小时(弥尔顿时间)分组,我试图找到每个月它旁边的最大数字。从1到12,现在我只显示月份、小时和数字。
我的期望产量是

(1, 4) 9
   ....
   remaning months
   ....
  (12, 3) 10

这里再次描述(月,小时),最大计数

htrmnn0y

htrmnn0y1#

B = GROUP A BY (month, hour);
C= FOREACH B GENERATE group as time,COUNT(A.temp) as cnt
X = GROUP C By time;
Y = FOREACH X GENERATE group, MAX(C.cnt) as mcount;

我不知道为什么,但是在另一个聚合(count)之后重新聚合(max)是个问题,或者我没有正确地重新定义名称。

相关问题