将数据从cloudera移动到amazon s3存储桶

vbopmzt1  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(484)

我有关于cdh hdfs的数据,我想把它移到amazons3 bucket中,这样我就可以在aws emr而不是cdh上运行代码。我怎样才能安全快速地移动它?
我可以用s3a命令或者其他有效的方法来做吗?

xxe27gdn

xxe27gdn1#

我使用hdfs distcp将数据从s3复制到hdfs。它也支持反之亦然,所以在您的情况下也应该起作用。由于它在内部使用map reduce并进行并行处理,所以它的速度非常快。我为一个日期数组创建了一个运行这个命令的脚本,然后在后台模式下使用nohup运行它。命令语法为:

hadoop distcp -Dfs.s3n.awsAccessKeyId=$S3NKEYID -      Dfs.s3n.awsSecretAccessKey=$S3NKEY s3n://$COPYFROMENV/$TABLE_PATH/$TABLE/$PARTITION_PATH hdfs://$COPYTOENV/$TABLE_PATH/$TABLE/

相关问题