我有一个在databricks中运行的spark流查询。当从Kafka主题加载数据到delta lake时,运行时的单元格输出显示“Compute snapshot for version:“3001”,这个信息我以前看过很多次,但这么大的数字我还是第一次看到。
这条消息到底是什么意思?一个人应该如何理解引擎盖下发生的事情?还有,拥有一个大的数字对任务的性能有任何影响吗?
我有一个在databricks中运行的spark流查询。当从Kafka主题加载数据到delta lake时,运行时的单元格输出显示“Compute snapshot for version:“3001”,这个信息我以前看过很多次,但这么大的数字我还是第一次看到。
这条消息到底是什么意思?一个人应该如何理解引擎盖下发生的事情?还有,拥有一个大的数字对任务的性能有任何影响吗?
1条答案
按热度按时间h5qlskok1#
从这个问题中,我推断出您正在将数据保存为
Delta Lake
,该格式在设计上具有 * 时间旅行 * 的概念,原则上允许您通过保存表的所谓 * 快照 * 来跟踪底层数据中的更改: