查找pyspark中相同连续值的运行持续时间

kgsdhlau  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(271)

我有以下类型的数据:

Timestamp,value1,value2
10/22/2020 0:01,1,0
10/22/2020 0:04,1,0
10/22/2020 0:06,1,0
10/22/2020 0:15,2,1
10/22/2020 0:20,2,1
10/22/2020 0:25,1,2
10/22/2020 0:30,1,2
10/22/2020 0:34,1,2
10/22/2020 0:35,1,2
10/22/2020 0:45,0,1
10/22/2020 0:55,0,1

我想找出连续值相同的持续时间,即。

value1,seconds
0,[300]
1,[300,600] # between 10/22/2020 0:01 and 10/22/2020 0:06 is 300 and then next is between 10/22/2020 0:25 and 10/22/2020 0:35
2,[300]

到目前为止,我已经能够通过创建滞后的Dataframe来获得总持续时间,并找到所有分钟的总和,这些分钟的值是相同的,但对于上述方法来说是混淆的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题