我有2个 Dataframe :
Dataframe A:
column1 column2 column3
a 25 ast
b phone
c 32 dlp
d 45
e 60 phq
Dataframe B:
column1 column2 column3
a 25 ast
b 15 phone
c 32 dlp
d 45 rare
e 60 phq
我想比较两个 Dataframe ,并将所有缺失值写入另一个 Dataframe ,如Dataframe C:
column1 column2 column3
a
b 15
c
d rare
e
缺失值可以在 Dataframe A或 Dataframe B中,如何使用PySpark Dataframe 实现这一点?
2条答案
按热度按时间ijnw1ujt1#
假设数据集1名为
first
,数据集2名为second
。然后我们收集列:
到目前为止的输出:
我们现在要做的是对列
column2_pairs
和column3_pairs
进行操作,如果有一个空值,则选择另一个值。最终输出:
祝你好运!
6tdlim6h2#
你可以这样做:
输出: