我正在一个Zeppelin Cluster(w Spark)上工作,使用write.parquet(),我最终得到了多个Parquet文件。我想知道,是否可以将它们合并成一个文件?或者我每次都要使用path="/folder/*"?
write.parquet()
path="/folder/*"
hwamh0ep1#
使用重新分区():
df.repartition(1).write.parquet(path)
或者,更好的是,coalesce()
df.coalesce(1).write.parquet(path)
1条答案
按热度按时间hwamh0ep1#
使用重新分区():
或者,更好的是,coalesce()