同步HDFS数据和Google云存储数据(适用于BDR)

dsekswqp  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(226)

为了在GCP中实现类似于AWS的Cloudera备份和灾难恢复功能,我正在寻找一些替代方案。
以下方法是否有效?
1.将GCP连接器添加到本地Cloudera集群
1.然后使用hadoop dist-cp复制
1.然后使用gsutil rsync [OPTION]... src_url dst_url将hdfs源目录同步到gcs目录
如果上述方法不可行,那么是否有其他替代方案来实现谷歌云存储(GCS)中的Cloudera BDR?

ssgvzors

ssgvzors1#

截至目前,Cloudera Manager的备份和灾难恢复不支持Google云存储,它被列为限制。请通过此链接查看Configuring Google Cloud Storage Connectivity的完整文档。
上面的方法是可行的。我们只需要添加几个步骤开始:
1.我们首先需要使用Cloud Interconnect或Cloud VPN在内部网络和Google网络之间建立私有链接。
1.数据传输需要Dataproc群集。
1.使用Google CLI连接到主示例。
1.最后,您可以运行DistCp命令来移动数据。
有关详细信息,您可以查看有关使用DistCp将数据复制到云存储的完整文档。
谷歌也有自己的BDR,你可以检查这个Data Recovery planning guide
请注意,Google Cloud Storage不能作为群集的默认文件系统。
您也可以查看此链接:与Google云合作伙伴合作
您可以使用下列连接器:

  • 在Spark(或PySpark)或Hadoop应用程序中使用gs://前缀。
  • Hadoop shell :hadoop fs -ls gs://bucket/dir/file .
  • 云控制台云存储浏览器。
  • 使用gsutil cpgsutil rsync指令。

您可以查看有关使用连接器的完整文档。
如果您有任何问题,请告诉我。

相关问题