加载hive分区表以触发Dataframe

bbuxkriu  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(415)

我正在使用 Spark 1.4.1 版本。我正在尝试将已分区的配置单元表加载到Dataframe中,其中配置单元表中的由 year_week 数字,在一个场景中,我可能有104个分区。
但我可以看到dataframe正在将数据加载到200个分区中,我知道这是由于 spark.sql.shuffle.partitions 默认设置为200。
我想知道是否有什么好的方法可以加载我的配置单元表,以激发Dataframe与104个分区,并确保Dataframe的分区 year_week Dataframe加载时间本身期间的数字。
我期望这样做的原因是,我将对大型卷表执行一些连接,其中所有的卷表都是按 year_week 号码。所以Dataframe被 year_week 编号并相应地加载将节省我很多时间从重新分区他们 year_week 号码。
如果你有什么建议请告诉我。
谢谢。

thigvfpy

thigvfpy1#

使用 hiveContext.sql("Select * from tableName where pt='2012.07.28.10'") 其中,pt=partitionkey,在您的情况下是year\u week及其对应的值。

相关问题