我有一个低于SparkDataframe,我需要检查工作是否关闭。每个作业都可以有子作业,一旦所有子作业都关闭,则认为一个作业已关闭。请你能建议如何在Pypark实现这一点。
例如:输入df
JobNum CloseDt ClosedFlg
12 N
12-01 2012-01-01 Y
12-02 2012-02-01 Y
13 2013-01-01 Y
14
14-01 2015-01-02 Y
14-02 N
输出功率因数:
JobNum IsClosedFlg Max_ClosedDt
12 Y 2012-02-01
13 Y 2013-01-01
14 N
1条答案
按热度按时间piztneat1#
您可以指定一个按jobnum分区并按sub jobnum降序排列的行号,并筛选行号为1的行。