sparksqlcbo—当我的两个文件都在s3中时,spark cbo如何计算连接成本

eblbsuwk  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(231)

我是新来的。我遇到了sparksql和使用cbo进行查询规划。
我知道,如果我将数据持久化到spark warehouse数据库并对其进行分析(计算统计),cbo将计算成本并创建查询计划
考虑到spark是一个内存计算引擎,如果我的数据集在s3中,我想做一些转换并最终加入它们,spark如何知道和计算成本。
spark在将数据读入内存后是否在运行时计算统计信息?或者它有其他方法来估计数据统计?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题