我正在尝试使用开源的delta-lakeapi在s3上设置delta-lake。我的表是按日期分区的,我必须执行合并(合并也可能更新旧分区)。我正在生成清单文件,以便使用aws athena查询delta lake,但是当我运行清单文件生成方法时,delta lakes为所有分区创建清单文件。有没有办法生成增量清单文件,只为最后更新的分区创建/更新文件,或者如果可以指定分区来生成清单文件。
df = spark.read.csv(s3://temp/2020-01-01.csv)
delta_table = DeltaTable.forPath(spark, delta_table_path)
delta_table.alias("source").merge(df.alias("new_data"), condition).whenNotMatchedInsertAll().execute()
delta_table.generate("symlink_format_manifest")
暂无答案!
目前还没有任何答案,快来回答吧!