我想连接pyspark表,其中第一个表有id,startTime和endTime,其中第二个表有Time和value。合并后的表将有每个id的列Time和value,其中startTime<=Time<=endTime。id中的startTime和endTime s可能重叠
id
startTime
endTime
Time
value
startTime<=Time<=endTime
06odsfpq1#
假设df1和df2是你的两个数组:
from pyspark.sql import functions as Fresult = df1.join( df2, on=F.col("Time").between(F.col("startTime"), F.col("endTime")), how="inner",)
from pyspark.sql import functions as F
result = df1.join(
df2,
on=F.col("Time").between(F.col("startTime"), F.col("endTime")),
how="inner",
)
字符串
1条答案
按热度按时间06odsfpq1#
假设df1和df2是你的两个数组:
字符串