我有一个很大的csv文件,详细信息如下:
total records: 20 million
total columns: 45
total file size: 8 GB
我试图在aws emr上使用apachespark(分布式计算引擎)处理这个csv文件。我分区这个csv文件的基础上,它的一列是 Timestamp
数据类型。
spark最终创建了近120万个分区文件夹,每个文件夹下都有一个大小在0到5 kb之间的output.orc文件。所有这些文件夹/文件都由spark在emr的hdfs上编写。
我们需要将这些小文件从emr(hdfs)复制到s3 bucket,我使用了s3 dist cp,它可以在3-4分钟内成功地复制它们。
这是使用s3distcp命令实用程序复制这么多小文件的最佳实践吗?或者有其他的替代方法吗?
暂无答案!
目前还没有任何答案,快来回答吧!