大家晚上好。我知道我们可以通过 df.groupBy('col1,'col2','col3')
我认为这个分组意味着它首先按col1分组,对于col1的每个成员,它按col2分组,以此类推。如果这是错误的,请纠正我,我基本上是从昨天开始的pyspark,因为一个大学项目。
我需要将数据按4个成员分组:2个字符串列和2个时间窗口。 df.groupBy('col1,'col2','1HourTimeWindow','15MinTimeWindow')
我知道你可以用这样的窗口做群比 df.groupBy(window("timeCol", "1 hour"))
但同一groupby中不能有多个窗口。
你能给我推荐的任何解决方案都会很棒。提前谢谢
1条答案
按热度按时间ifmq2ha21#
通过聚合解决
groupBy(col1, col2, 15Min)
然后在接下来的任务中按1小时分组。