我对apachehadoop还不熟悉。我们有一个hadoop集群[1],里面充满了一些数据。还有另一个hadoop集群[2]没有数据。将数据从[1]复制到[2]的最简单和最首选的方法是什么?
uelo1irk1#
您可以使用distcp(分布式复制),它是一种允许您在集群之间或从/到不同的文件系统(如s3或ftp服务器)复制数据的工具。https://hadoop.apache.org/docs/r1.2.1/distcp2.html必须指定从外部群集复制数据的绝对路径:hdfs://otherclusternn:端口/路径此工具启动mapreduce作业,从hadoop文件系统库中可用的任何类型的源并行复制数据,如hdfs、ftp、s3、azure(最新版本等)要从不同版本的hadoop复制数据,而不是使用hdfs协议,必须从其中一个版本使用hftpfilesystem。
1条答案
按热度按时间uelo1irk1#
您可以使用distcp(分布式复制),它是一种允许您在集群之间或从/到不同的文件系统(如s3或ftp服务器)复制数据的工具。
https://hadoop.apache.org/docs/r1.2.1/distcp2.html
必须指定从外部群集复制数据的绝对路径:hdfs://otherclusternn:端口/路径
此工具启动mapreduce作业,从hadoop文件系统库中可用的任何类型的源并行复制数据,如hdfs、ftp、s3、azure(最新版本等)
要从不同版本的hadoop复制数据,而不是使用hdfs协议,必须从其中一个版本使用hftpfilesystem。