我正在使用 Spark 1.4.1
版本。我正在尝试将已分区的配置单元表加载到Dataframe中,其中配置单元表中的由 year_week
数字,在一个场景中,我可能有104个分区。
但我可以看到dataframe正在将数据加载到200个分区中,我知道这是由于 spark.sql.shuffle.partitions
默认设置为200。
我想知道是否有什么好的方法可以加载我的配置单元表,以激发Dataframe与104个分区,并确保Dataframe的分区 year_week
Dataframe加载时间本身期间的数字。
我期望这样做的原因是,我将对大型卷表执行一些连接,其中所有的卷表都是按 year_week
号码。所以Dataframe被 year_week
编号并相应地加载将节省我很多时间从重新分区他们 year_week
号码。
如果你有什么建议请告诉我。
谢谢。
1条答案
按热度按时间thigvfpy1#
使用
hiveContext.sql("Select * from tableName where pt='2012.07.28.10'")
其中,pt=partitionkey,在您的情况下是year\u week及其对应的值。