我想将配置单元表从一个hadoop集群a导出到另一个hadoop集群b。我有两种方法:第一:导出到(同一群集)的hdfs集群b的distcp到hdfs(不同集群)导入到群集b的配置单元第二:导出到b的hdfs(不同集群)导入到群集b的配置单元distcp是否增加了额外的优势?
gkn4icbw1#
不清楚“导出到hdfs”和“导入到hive”是什么意思。无论如何,配置单元数据文件都存储在hdfs中!对于托管表,所有这些数据文件都以确定的方式位于同一“位置”下,最简单的方法是:在集群b中创建一个具有完全相同布局和serde的空托管表——同时创建所有预期的分区(如果有的话) distcp 整个hdfs树从a中的“location”到b中的“location”完成!这就是我们将一些prod数据(orc w/gzip压缩,按月分区)克隆到测试集群的方法。请注意,可以使用多个分区将副本限制为分区列表 distcp 单个子目录上的命令。
distcp
1条答案
按热度按时间gkn4icbw1#
不清楚“导出到hdfs”和“导入到hive”是什么意思。无论如何,配置单元数据文件都存储在hdfs中!
对于托管表,所有这些数据文件都以确定的方式位于同一“位置”下,最简单的方法是:
在集群b中创建一个具有完全相同布局和serde的空托管表——同时创建所有预期的分区(如果有的话)
distcp
整个hdfs树从a中的“location”到b中的“location”完成!
这就是我们将一些prod数据(orc w/gzip压缩,按月分区)克隆到测试集群的方法。
请注意,可以使用多个分区将副本限制为分区列表
distcp
单个子目录上的命令。