举个例子,但是 N
按列比较两个Dataframe之间的列数。
给定5行3列的示例 EmpID
作为主键。
如何在spark core中进行比较?
输入F1:
|EMPID |Dept | Salary
--------------------------
|1 |HR | 100
|2 |IT | 200
|3 |Finance | 250
|4 |Accounts | 200
|5 |IT | 150
输入数据2:
|EMPID |Dept |Salary
------------------------------
|1 |HR | 100
|2 |IT | 200
|3 |FIN | 250
|4 |Accounts | 150
|5 |IT | 150
预期结果df:
|EMPID |Dept |Dept |status |Salary |Salary |status
--------------------------------------------------------------------
|1 |HR |HR | TRUE | 100 | 100 | TRUE
|2 |IT |IT | TRUE | 200 | 200 | TRUE
|3 |Finance |FIN | False | 250 | 250 | TRUE
|4 |Accounts |Accounts | TRUE | 200 | 150 | FALSE
|5 |IT |IT | TRUE | 150 | 150 | TRUE
3条答案
按热度按时间lhcgjxsq1#
可以使用join,然后在
df.columns
要选择所需的输出列:fnvucqvd2#
您可以使用empid执行联接并比较结果列:
请注意,您可能希望重命名这些列,因为以后无法查询重复的列名。
vlju58qv3#
您也可以通过以下方式进行:
您可以看到如下输出: