spark是否自动缓存数据集？

y53ybaqx 于 2021-05-24 发布在 Spark

关注(0)|答案(0)|浏览(477)

我有一系列的spark转换，其间我还使用show（）打印ds。这是我的流程-

1) Dataset csv = loadCSV();
2) Dataset csv1 = transformation_1(csv)
3) csv1.show()
4) Dataset csv2 = transformation_2(csv1)

所以问题是-当我执行csv1.show（）时，它是一个动作，因此dscsv1将被执行。现在，当我进行下一个转换时，即转换2（csv1），是从csv-->csv1-->csv2重新执行dag，还是从缓存的csv1执行转换？
谢谢，库纳尔

目前还没有任何答案，快来回答吧！

相关问题