我有两个具有相同列和数据类型等的配置单元表,我想将数据从一个表复制到不同集群中的另一个表。hive或sqoop是否提供了一种简单的方法?脚本:
Table A in Cluster1 Table B in Cluster2 Append table A into Table B on Cluster 2
oogrdqng1#
实现这一点的一个方便方法是使用hive的导入/导出功能。export命令将表或分区的数据以及元数据导出到指定的输出位置。然后可以将这个输出位置移到另一个hadoop或hive示例,并使用import命令从那里导入。
drkbr07n2#
可以使用distcp命令在群集之间复制数据。但必须首先将表数据转换为文件,然后使用下面的命令将文件复制到其他群集。用法:
$ hadoop distcp (src) (dest)
在集群2中复制文件之后,就可以将文件加载到表中。你可以在这里找到更多信息links:httphttp://hadoop.apache.org/docs/r1.2.1/distcp.html
vuv7lop33#
您也可以使用falcon进行数据复制。您还可以使用配置单元上下文,用java或scala编写代码来复制数据。
3条答案
按热度按时间oogrdqng1#
实现这一点的一个方便方法是使用hive的导入/导出功能。export命令将表或分区的数据以及元数据导出到指定的输出位置。然后可以将这个输出位置移到另一个hadoop或hive示例,并使用import命令从那里导入。
drkbr07n2#
可以使用distcp命令在群集之间复制数据。但必须首先将表数据转换为文件,然后使用下面的命令将文件复制到其他群集。用法:
在集群2中复制文件之后,就可以将文件加载到表中。你可以在这里找到更多信息links:httphttp://hadoop.apache.org/docs/r1.2.1/distcp.html
vuv7lop33#
您也可以使用falcon进行数据复制。您还可以使用配置单元上下文,用java或scala编写代码来复制数据。