Apache Spark 以下版本的Compute Snasphot是什么:3001表示在数据库中?

wr98u20j  于 2022-11-25  发布在  Apache
关注(0)|答案(1)|浏览(87)

我有一个在databricks中运行的spark流查询。当从Kafka主题加载数据到delta lake时,运行时的单元格输出显示“Compute snapshot for version:“3001”,这个信息我以前看过很多次,但这么大的数字我还是第一次看到。
这条消息到底是什么意思?一个人应该如何理解引擎盖下发生的事情?还有,拥有一个大的数字对任务的性能有任何影响吗?

h5qlskok

h5qlskok1#

从这个问题中,我推断出您正在将数据保存为Delta Lake,该格式在设计上具有 * 时间旅行 * 的概念,原则上允许您通过保存表的所谓 * 快照 * 来跟踪底层数据中的更改:

相关问题