我们有一个Hive目标,储藏室是Parquet地板。informatica bdm作业配置为使用spark作为执行引擎将数据加载到配置单元目标。我们注意到在hdfs的一个分区中生成了大约2000个部件文件。这种行为会影响Hive的性能。有没有别的办法?输入文件大小只有12mb块大小为128mb你好,斯里达尔·文卡泰桑
hgtggwj01#
根本原因是spark.sql.shuffle.partitions
1条答案
按热度按时间hgtggwj01#
根本原因是spark.sql.shuffle.partitions