在pyspark中基于条件连接表

vm0i2vca  于 2024-01-06  发布在  Spark
关注(0)|答案(1)|浏览(149)

我想连接pyspark表,其中第一个表有idstartTimeendTime,其中第二个表有Timevalue。合并后的表将有每个id的列Timevalue,其中startTime<=Time<=endTimeid中的startTimeendTime s可能重叠

06odsfpq

06odsfpq1#

假设df1和df2是你的两个数组:

  1. from pyspark.sql import functions as F
  2. result = df1.join(
  3. df2,
  4. on=F.col("Time").between(F.col("startTime"), F.col("endTime")),
  5. how="inner",
  6. )

字符串

相关问题