无法通过sparksession在spark流应用程序中重新分区加载配置单元查询

ioekq8ef  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(199)

我正在尝试通过从特定位置加载查询将数据加载到外部配置单元表中。 SparkSession sqlContext = null; sqlContext = new org.apache.spark.sql.SparkSession.Builder().enableHiveSupport().getOrCreate(); String query = "LOAD DATA LOCAL INPATH '/home/user/outputfiles/P20170613097' INTO TABLE table1 PARTITION (p1='20170613',p2='P2017061301')"; sqlcontext.sql(query); 最后hive表中的分区p2017061301收集数据,这个分区不包含大小均匀的均匀分布的分区文件,而是像:
第m部分-00000125 kb
零件号:m-00001 763 kb
零件号:m-00002 28171 kb
part-m-00003 68 kb等
为了提高表的效率,我尝试在将数据加载到配置单元表之前使用 "spark.sql.shuffle.partitions=10" 但这是行不通的。有什么帮助吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题