如何在spark/hive中将大部分数据合并到单个目录中

sh7euo9m  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(434)

我有一个要求,巨大的数据被分区并插入到配置单元中 DF.Coalesce(10) . 现在,如果我使用 DF.Coalesce(1) 性能会下降吗?或者我还有其他的流程吗?

6vl6ewon

6vl6ewon1#

据我所知,您正试图确保每个分区的文件数量减少。所以,通过使用 coalesce(10) ,每个分区最多可获得10个文件。我建议使用 repartition($"COL") ,这里col是用于划分数据的列。这将确保根据配置单元中使用的分区列拆分“巨大”数据。 df.repartition($"COL")

相关问题