spark |生成的零件文件太多

wqnecbli 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(365)

我们有一个Hive目标，储藏室是Parquet地板。informatica bdm作业配置为使用spark作为执行引擎将数据加载到配置单元目标。
我们注意到在hdfs的一个分区中生成了大约2000个部件文件。这种行为会影响Hive的性能。
有没有别的办法？
输入文件大小只有12mb
块大小为128mb
你好，斯里达尔·文卡泰桑

Hive apache-spark apache-spark-sql informatica

来源：https://stackoverflow.com/questions/52304034/spark-generating-too-many-part-files