如何在spark/hive中将大部分数据合并到单个目录中

sh7euo9m 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(434)

我有一个要求，巨大的数据被分区并插入到配置单元中 DF.Coalesce(10) . 现在，如果我使用 DF.Coalesce(1) 性能会下降吗？或者我还有其他的流程吗？

来源：https://stackoverflow.com/questions/48406372/how-to-coalesce-large-portioned-data-into-single-directory-in-spark-hive

1条答案

按热度按时间

6vl6ewon1#

据我所知，您正试图确保每个分区的文件数量减少。所以，通过使用 coalesce(10) ，每个分区最多可获得10个文件。我建议使用 repartition($"COL") ，这里col是用于划分数据的列。这将确保根据配置单元中使用的分区列拆分“巨大”数据。 df.repartition($"COL")

赞(0）回复(0）举报 2021-05-29

我来回答

如何在spark/hive中将大部分数据合并到单个目录中

1条答案

相关问题

热门标签

最新问答