灾难恢复—在位于不同数据中心的多个hadoop群集之间复制数据

xeufq47z  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(399)

我想知道将数据中心dc1中的hadoop集群h1中的数据复制到数据中心dc2中的另一个hadoop集群h2(最好是热备份)的最佳方法是什么。我知道hadoop做数据复制,创建的数据拷贝数由hdfs-site.xml中设置的复制因子决定。我有一些与此相关的问题
将一个集群的数据节点分布在两个数据中心上是否合理,以便h1的数据节点同时出现在dc1和dc2中。如果这是有意义的,是可行的,那么这是否意味着我们不需要氢气?
让namenodes和datanodes分布在两个数据中心,而不是只让datanodes分布在两个数据中心,这有意义吗?
我还听说人们使用distcp,许多工具都是在distcp之上构建的。但是distcp做的是延迟备份,它更喜欢热备份而不是冷备份。
有些人建议使用Kafka,但我不知道如何去使用它。
任何帮助都将不胜感激。谢谢。

c86crjj0

c86crjj01#

这取决于你想保护什么。如果您想防止站点故障,distcp似乎是跨数据中心复制的唯一选项。但是,正如您所指出的,distcp有其局限性。您可以使用快照来防止用户错误或应用程序损坏,因为复制或多个副本无法防止这种情况。如果您不想编写和维护代码,还可以使用其他商业工具来自动化备份过程。

相关问题