如何将大量较小的文件从emr(hdfs)复制到s3 bucket？

owfi6suc 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(362)

我有一个很大的csv文件，详细信息如下：

total records: 20 million
total columns: 45
total file size: 8 GB

我试图在aws emr上使用apachespark（分布式计算引擎）处理这个csv文件。我分区这个csv文件的基础上，它的一列是 Timestamp 数据类型。
spark最终创建了近120万个分区文件夹，每个文件夹下都有一个大小在0到5 kb之间的output.orc文件。所有这些文件夹/文件都由spark在emr的hdfs上编写。
我们需要将这些小文件从emr（hdfs）复制到s3 bucket，我使用了s3 dist cp，它可以在3-4分钟内成功地复制它们。
这是使用s3distcp命令实用程序复制这么多小文件的最佳实践吗？或者有其他的替代方法吗？

apache-spark amazon-emr amazon-s3 DistCp s3distcp

来源：https://stackoverflow.com/questions/62115407/how-to-copy-large-number-of-smaller-files-from-emr-hdfs-to-s3-bucket

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何将大量较小的文件从emr(hdfs)复制到s3 bucket？

暂无答案！

相关问题

热门标签

最新问答