我有不同的Dataframe,我想选择这些df的最大公共日期。例如,我有以下Dataframe:
+--------------+-------+
|Date | value |
+--------------+-------+
|2015-12-14 |5 |
|2017-11-19 |1 |
|2016-09-02 |1 |
|2015-12-14 |3 |
|2015-12-14 |1 |
+--------------+-------+
|Date | value |
+--------------+-------+
|2015-12-14 |5 |
|2017-11-19 |1 |
|2016-09-02 |1 |
|2015-12-14 |3 |
|2015-12-14 |1 |
+--------------+-------+
|Date | value |
+--------------+-------+
|2015-12-14 |5 |
|2012-12-21 |1 |
|2016-09-02 |1 |
|2015-12-14 |3 |
|2015-12-14 |1 |
所选日期为2016-09-02,因为这3个df中存在的最大日期(2017-11-19日期不在第三个df中)。
我正试着和你一起做 agg(max)
但这样我就得到了Dataframe的最高日期:
df1.select("Date").groupBy("Date").agg(max("Date))
提前谢谢!
1条答案
按热度按时间w41d8nur1#
您可以执行半联接来获取公共日期,并聚合最大日期。不需要按日期分组,因为您希望获得其最大值。
你也可以使用
intersect
: