我正在尝试使用以下命令将文件从s3复制到hdfs:
hadoop distcp s3n://bucketname/filename hdfs://namenodeip/directory
但是,这不起作用,出现如下错误:
ERROR tools.DistCp: Exception encountered
java.lang.IllegalArgumentException: Invalid hostname in URI
我曾尝试在hadoop conf.xml中添加s3键,但也不起作用。请帮助我一步一步地实现从s3到hdfs的文件拷贝。
提前谢谢。
2条答案
按热度按时间wz1wpwve1#
将存储在amazons3存储桶中的日志文件复制到hdfs中。这里--srcpattern选项用于限制复制到守护程序日志的数据。
linux、unix和mac os x用户:
windows用户:
有关更多信息,请查看此链接:
http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/usingemr_s3distcp.html
希望这有帮助!
jchrr9hc2#
命令应如下所示:
这将把test.csv文件从s3复制到指定hdfs路径中名为/mydirectory的hdfs目录。在这个s3中,文件系统是以本机模式使用的。更多详情请参见http://wiki.apache.org/hadoop/amazons3