我有一系列的spark转换,其间我还使用show()打印ds。这是我的流程-
1) Dataset csv = loadCSV();
2) Dataset csv1 = transformation_1(csv)
3) csv1.show()
4) Dataset csv2 = transformation_2(csv1)
所以问题是-当我执行csv1.show()时,它是一个动作,因此dscsv1将被执行。现在,当我进行下一个转换时,即转换2(csv1),是从csv-->csv1-->csv2重新执行dag,还是从缓存的csv1执行转换?
谢谢,库纳尔
暂无答案!
目前还没有任何答案,快来回答吧!