我们有2个数据集,我想生成一个结果表数据集。如何使用pyspark或spark+scalaxx生成结果数据集
数据是为日志文件,我想得到的数据,这是有2列,其中它将显示开始日期和结束日期与周期\状态列。
失败
+-------------------+
| fail_date |
+-------------------+
| 2018-12-28 |
| 2018-12-29 |
| 2019-01-04 |
| 2019-01-05 |
+-------------------+
成功
+-------------------+
| success_date |
+-------------------+
| 2018-12-30 |
| 2018-12-31 |
| 2019-01-01 |
| 2019-01-02 |
| 2019-01-03 |
| 2019-01-06 |
+-------------------+
结果表:
+--------------+--------------+--------------+
| period_state | start_date | end_date |
+--------------+--------------+--------------+
| succeeded | 2019-01-01 | 2019-01-03 |
| failed | 2019-01-04 | 2019-01-05 |
| succeeded | 2019-01-06 | 2019-01-06 |
+--------------+--------------+--------------+
1条答案
按热度按时间t98cgbkg1#
不需要自定义项。只需使用如下窗口函数:
如果您对中间结果感兴趣: