我有一个要求,巨大的数据被分区并插入到配置单元中 DF.Coalesce(10) . 现在,如果我使用 DF.Coalesce(1) 性能会下降吗?或者我还有其他的流程吗?
DF.Coalesce(10)
DF.Coalesce(1)
6vl6ewon1#
据我所知,您正试图确保每个分区的文件数量减少。所以,通过使用 coalesce(10) ,每个分区最多可获得10个文件。我建议使用 repartition($"COL") ,这里col是用于划分数据的列。这将确保根据配置单元中使用的分区列拆分“巨大”数据。 df.repartition($"COL")
coalesce(10)
repartition($"COL")
df.repartition($"COL")
1条答案
按热度按时间6vl6ewon1#
据我所知,您正试图确保每个分区的文件数量减少。所以,通过使用
coalesce(10)
,每个分区最多可获得10个文件。我建议使用repartition($"COL")
,这里col是用于划分数据的列。这将确保根据配置单元中使用的分区列拆分“巨大”数据。df.repartition($"COL")