我想从分区的配置单元表中获取最新的数据,我使用了类似sql的 select * from table where date in (select max(date) from table t)
,date是分区列,但它触发了hive full table scan,为什么不能sparksql查询hdfs目录并获取最大日期,然后只扫描一个分区?我找到了许多答案,解释了如何避免full table scan,但我真正想知道的是为什么!
我想从分区的配置单元表中获取最新的数据,我使用了类似sql的 select * from table where date in (select max(date) from table t)
,date是分区列,但它触发了hive full table scan,为什么不能sparksql查询hdfs目录并获取最大日期,然后只扫描一个分区?我找到了许多答案,解释了如何避免full table scan,但我真正想知道的是为什么!
暂无答案!
目前还没有任何答案,快来回答吧!