Apache Spark 以下版本的Compute Snasphot是什么：3001表示在数据库中？

wr98u20j 于 2022-11-25 发布在 Apache

关注(0)|答案(1)|浏览(86)

我有一个在databricks中运行的spark流查询。当从Kafka主题加载数据到delta lake时，运行时的单元格输出显示“Compute snapshot for version：“3001”，这个信息我以前看过很多次，但这么大的数字我还是第一次看到。
这条消息到底是什么意思？一个人应该如何理解引擎盖下发生的事情？还有，拥有一个大的数字对任务的性能有任何影响吗？

apache-spark

来源：https://stackoverflow.com/questions/74532382/what-does-compute-snasphot-for-version-3001-means-in-databricks

1条答案

按热度按时间

h5qlskok1#

从这个问题中，我推断出您正在将数据保存为Delta Lake，该格式在设计上具有 * 时间旅行 * 的概念，原则上允许您通过保存表的所谓 * 快照 * 来跟踪底层数据中的更改：

有关快照的更多信息-https://books.japila.pl/delta-lake-internals/Snapshot/
关于三角洲湖时间旅行的更多信息-https://docs.delta.io/latest/delta-batch.html#query-an-older-snapshot-of-a-table-time-travel

赞(0）回复(0）举报 2022-11-25

我来回答

Apache Spark 以下版本的Compute Snasphot是什么：3001表示在数据库中？

1条答案

相关问题

热门标签

最新问答