如果我有一个应用程序,每天在相同的列集(不一定是相同的行值)上运行相同的作业,有没有一种方法可以保存spark执行计划,而不必每次都让spark重新计算它?我的应用程序需要进行数千次转换,而且构建谱系图和优化计划需要花费大量时间。
nzk0hqpo1#
是否有一种方法可以保存spark执行计划,而不必每次都让spark重新计算它?我从来没有遇到过这样的可能性,所以我可以很有信心地说,这不是一个选择。相反,你可以做什么来优化输入到Spark的数据--优化分区、压缩、支持 predicate 下推的格式,这些可能是你可以节省时间的地方。
1条答案
按热度按时间nzk0hqpo1#
是否有一种方法可以保存spark执行计划,而不必每次都让spark重新计算它?
我从来没有遇到过这样的可能性,所以我可以很有信心地说,这不是一个选择。
相反,你可以做什么来优化输入到Spark的数据--优化分区、压缩、支持 predicate 下推的格式,这些可能是你可以节省时间的地方。