这里我有一些示例数据集,以及如何根据(column)status=“removed”动态删除id(没有硬编码值)。
示例数据集:
ID Status Date Amount
1 New 01/05/20 20
1 Assigned 02/05/20 30
1 In-Progress 02/05/20 50
2 New 02/05/20 30
2 Removed 03/05/20 20
3 In-Progress 09/05/20 50
3 Removed 09/05/20 20
4 New 10/05/20 20
4 Assigned 10/05/20 30
期望result:-
ID Status Date Amount
1 New 01/05/20 20
1 Assigned 02/05/20 30
1 In-Progress 02/05/20 50
4 New 10/05/20 20
4 Assigned 10/05/20 30
提前谢谢。
2条答案
按热度按时间y53ybaqx1#
你可以用任何一个
filter
,not like/rlike
至filter out
来自Dataframe的记录status
=removed
.现在,df1Dataframe将包含所需的记录。
UPDATE:
From Spark2.4:
对于这种情况,我们可以使用join或window子句。30byixjq2#
假设
res0
是您的数据集,您可以:这将删除状态为removed的行,但不会根据上面发布的内容给出您想要实现的目标。