如何将大量较小的文件从emr(hdfs)复制到s3 bucket?

owfi6suc  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(333)

我有一个很大的csv文件,详细信息如下:

total records: 20 million
total columns: 45
total file size: 8 GB

我试图在aws emr上使用apachespark(分布式计算引擎)处理这个csv文件。我分区这个csv文件的基础上,它的一列是 Timestamp 数据类型。
spark最终创建了近120万个分区文件夹,每个文件夹下都有一个大小在0到5 kb之间的output.orc文件。所有这些文件夹/文件都由spark在emr的hdfs上编写。
我们需要将这些小文件从emr(hdfs)复制到s3 bucket,我使用了s3 dist cp,它可以在3-4分钟内成功地复制它们。
这是使用s3distcp命令实用程序复制这么多小文件的最佳实践吗?或者有其他的替代方法吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题