pyspark groupby多时间窗口

z3yyvxxp  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(313)

大家晚上好。我知道我们可以通过 df.groupBy('col1,'col2','col3') 我认为这个分组意味着它首先按col1分组,对于col1的每个成员,它按col2分组,以此类推。如果这是错误的,请纠正我,我基本上是从昨天开始的pyspark,因为一个大学项目。
我需要将数据按4个成员分组:2个字符串列和2个时间窗口。 df.groupBy('col1,'col2','1HourTimeWindow','15MinTimeWindow') 我知道你可以用这样的窗口做群比 df.groupBy(window("timeCol", "1 hour")) 但同一groupby中不能有多个窗口。
你能给我推荐的任何解决方案都会很棒。提前谢谢

ifmq2ha2

ifmq2ha21#

通过聚合解决 groupBy(col1, col2, 15Min) 然后在接下来的任务中按1小时分组。

相关问题