我在pyspark数据框中有重叠日期的合并记录。开始日期的最小值和结束数据的最大值将是重叠记录的开始和结束日期。
请查收以下样品记录。
输入数据
Item Code Item name Start_date End_date
============== ========= =========== ===========
111 Item1 15-May-2004 20-Jun-2004
111 Item1 22-May-2004 07-Jun-2004
111 Item1 20-Jun-2004 13-Aug-2004
111 Item1 27-May-2004 30-Aug-2004
111 Item1 02-Sep-2004 23-Dec-2004
222 Item2 21-May-2004 19-Aug-2004
输出应该是
Item Code Item name Start_date End_date
============== ========= =========== ===========
111 Item1 15-May-2004 30-Aug-2004
111 Item1 02-Sep-2004 23-Dec-2004
222 Item2 21-May-2004 19-Aug-2004
如何在pyspark中进行这种合并
1条答案
按热度按时间ctrmrzij1#
您可以通过获取最新的
End_date
在前面的行中,使用重叠条件的滚动和对行进行分组,并聚合最早和最晚的日期。分组前的幕后: