我试图读取配置单元表有2年的数据,它是分区的一天,通过sparksql读取它需要超过10分钟,即使过滤器应用了6个月的数据。任何改进的方法,我都尝试过在hiveql中使用distributedby子句
f3temu5u1#
您可以通过设置属性来启用分区修剪:
spark.sql.hive.metastorePartitionPruning=true
这将过滤分区
1条答案
按热度按时间f3temu5u1#
您可以通过设置属性来启用分区修剪:
这将过滤分区