配置单元表导出到其他hadoop集群还是集群+distcp中的配置单元导出?

wgx48brx  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(437)

我想将配置单元表从一个hadoop集群a导出到另一个hadoop集群b。
我有两种方法:
第一:
导出到(同一群集)的hdfs
集群b的distcp到hdfs(不同集群)
导入到群集b的配置单元
第二:
导出到b的hdfs(不同集群)
导入到群集b的配置单元
distcp是否增加了额外的优势?

gkn4icbw

gkn4icbw1#

不清楚“导出到hdfs”和“导入到hive”是什么意思。无论如何,配置单元数据文件都存储在hdfs中!
对于托管表,所有这些数据文件都以确定的方式位于同一“位置”下,最简单的方法是:
在集群b中创建一个具有完全相同布局和serde的空托管表——同时创建所有预期的分区(如果有的话) distcp 整个hdfs树从a中的“location”到b中的“location”
完成!
这就是我们将一些prod数据(orc w/gzip压缩,按月分区)克隆到测试集群的方法。
请注意,可以使用多个分区将副本限制为分区列表 distcp 单个子目录上的命令。

相关问题