我是新来的。我遇到了sparksql和使用cbo进行查询规划。
我知道,如果我将数据持久化到spark warehouse数据库并对其进行分析(计算统计),cbo将计算成本并创建查询计划
考虑到spark是一个内存计算引擎,如果我的数据集在s3中,我想做一些转换并最终加入它们,spark如何知道和计算成本。
spark在将数据读入内存后是否在运行时计算统计信息?或者它有其他方法来估计数据统计?
我是新来的。我遇到了sparksql和使用cbo进行查询规划。
我知道,如果我将数据持久化到spark warehouse数据库并对其进行分析(计算统计),cbo将计算成本并创建查询计划
考虑到spark是一个内存计算引擎,如果我的数据集在s3中,我想做一些转换并最终加入它们,spark如何知道和计算成本。
spark在将数据读入内存后是否在运行时计算统计信息?或者它有其他方法来估计数据统计?
暂无答案!
目前还没有任何答案,快来回答吧!