pyspark根据关键字比较两个 Dataframe 的所有列,未知模式,但两个 Dataframe 的模式相同
模式各不相同,但我希望比较两个 Dataframe 以查看所有列的变化
示例数据集
第1天输入记录
Customerid Balance
1 100
2 200
3 300
第2天输入记录
Customerid Balance
1 200
2 200
3 300
4 400
关键字是customerid,如何根据关键字customerid找出所有其他列(这里是balance)中的变化
期望输出
Customerid Balance is_active
1 100 N
2 200 Y
3 300 Y
1 200 Y
4 400 Y
只有customerid 1的余额更改活动标志需要设置为N
1条答案
按热度按时间2j4z5cfb1#
如果我理解正确的话-你需要比较两个 Dataframe 的基础上的所有列以外的关键列。
在这种情况下,下面的将工作(即使有更多的列不仅仅是平衡):
输入(DF1-DF2):
输出:
我确实有一些问题,虽然你的例子不能回答。
让我知道这些,我会更新我的答案。