我的pyspark代码中有一个问题。
我必须在一个时间范围内循环,计算给定时间范围内每个月的某些指标,并将结果写入s3。
示例代码:
for date in daterange(startdate, enddate):
df = spark.read.parquet(PATH + "/" + date)
df_final = applylogic(df)
问题是,我不能一个接一个地写Dataframe,因为每次都应该覆盖s3路径。所以我需要一种方法将循环中的Dataframe组合成一个Dataframe,并将其写入s3。
请帮助我用同样的逻辑写同样的s3
1条答案
按热度按时间ujv3wf0j1#
你可以做一个
union
的df_final
for循环中的s: