spark |生成的零件文件太多

wqnecbli  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(328)

我们有一个Hive目标,储藏室是Parquet地板。informatica bdm作业配置为使用spark作为执行引擎将数据加载到配置单元目标。
我们注意到在hdfs的一个分区中生成了大约2000个部件文件。这种行为会影响Hive的性能。
有没有别的办法?
输入文件大小只有12mb
块大小为128mb
你好,斯里达尔·文卡泰桑

hgtggwj0

hgtggwj01#

根本原因是spark.sql.shuffle.partitions

相关问题