delta-lake增量清单文件生成

bttbmeg0 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(278)

我正在尝试使用开源的delta-lakeapi在s3上设置delta-lake。我的表是按日期分区的，我必须执行合并（合并也可能更新旧分区）。我正在生成清单文件，以便使用aws athena查询delta lake，但是当我运行清单文件生成方法时，delta lakes为所有分区创建清单文件。有没有办法生成增量清单文件，只为最后更新的分区创建/更新文件，或者如果可以指定分区来生成清单文件。

df = spark.read.csv(s3://temp/2020-01-01.csv)
delta_table = DeltaTable.forPath(spark, delta_table_path)

delta_table.alias("source").merge(df.alias("new_data"), condition).whenNotMatchedInsertAll().execute()

delta_table.generate("symlink_format_manifest")

apache-spark delta-lake amazon-athena

来源：https://stackoverflow.com/questions/62339381/delta-lake-incremental-manifest-files-generation

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

delta-lake增量清单文件生成

暂无答案！

相关问题

热门标签

最新问答