我尝试使用distcp工具将数据从S3复制到HDFS。问题是,S3集群使用VPC端点,我不知道如何正确配置distcp。我尝试了几种配置,但没有一种有效。目前我使用以下命令:
hadoop distcp
-Dfs.s3a.access.key=[KEY]
-Dfs.s3a.secret.key=[SECRET]
-Dfs.s3a.region=eu-west-1
-Dfs.s3a.bucket.[BUCKET NAME].endpoint=https://bucket.vpce-[vpce id].s3.eu-west-1.vpce.amazonaws.com
s3a://[BUCKET NAME]/[FILE]
hdfs://[DESTINATION]/[FILE]
但我得到了这个错误:
22/03/16 09:14:39 ERROR tools.DistCp: Exception encountered org.apache.hadoop.fs.s3a.AWSBadRequestException: doesBucketExistV2 on [BUCKET NAME]: com.amazonaws.services.s3.model.AmazonS3Exception: The authorization header is malformed; the region 'vpce' is wrong; expecting 'eu-west-1'
您对如何使用VPC端点配置Distcp有什么想法吗?
先谢谢你
1条答案
按热度按时间wa7juj8i1#
1.你需要hadoop3.3.1来完成这个,那么它应该可以工作。理想的情况是使用3.3.2,现在已经出来了
1.获取cloudstore jar并在接近distcp之前使用其
storediag
命令对此进行调试。