在Pyspark中使用去年的值创建新列

vmjh9lq9  于 2022-12-22  发布在  Spark
关注(0)|答案(1)|浏览(129)

我有一个包含日期的日期集,每个日期都有一个值和该值所引用的特定单位。我需要的是一个新列,它能给我一年前该单位的值。我想在PySpark中完成这个操作,但到目前为止我还没有成功。
示例

Time        Unit  Value  Value_lastYear
21-12-2022  1     3      5
21-12-2021  1     5      8
21-12-2022  2     6      7

有什么好主意吗?

juzqafwq

juzqafwq1#

您可以从时间戳中减去365天,如下所示:

df = df.withColumn('new_time', F.date_sub(F.col('Time'), 365))

相关问题