如何将多个HDFS文件压缩为一个文件

kmynzznz 于 2022-12-09 发布在 HDFS

关注(0)|答案(1)|浏览(204)

我正在一个Zeppelin Cluster（w Spark）上工作，使用write.parquet()，我最终得到了多个Parquet文件。我想知道，是否可以将它们合并成一个文件？或者我每次都要使用path="/folder/*"？

来源：https://stackoverflow.com/questions/69841031/how-to-compress-multiple-hdfs-files-into-one

1条答案

按热度按时间

使用重新分区（）：

df.repartition(1).write.parquet(path)

或者，更好的是，coalesce（）

df.coalesce(1).write.parquet(path)

赞(0）回复(0）举报 2022-12-09

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前