如何将多个HDFS文件压缩为一个文件

kmynzznz  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(204)

我正在一个Zeppelin Cluster(w Spark)上工作,使用write.parquet(),我最终得到了多个Parquet文件。我想知道,是否可以将它们合并成一个文件?或者我每次都要使用path="/folder/*"

hwamh0ep

hwamh0ep1#

使用重新分区():

df.repartition(1).write.parquet(path)

或者,更好的是,coalesce()

df.coalesce(1).write.parquet(path)

相关问题