hdfs—如何在将数据从hadoop传输到google云存储时加速distcp

bvjveswy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(465)

google云提供了使用hadoop的连接器(https://cloud.google.com/hadoop/google-cloud-storage-connector)
使用这个连接器,我从hdfs接收数据到google云存储
(例如)

hadoop discp hdfs://${path} gs://${path}

但是数据太大(16tb),接收速度只有2mb/s
所以,我尝试更改setup distcp(map属性,bandwith属性…)
但是速度是一样的。
如何在将数据从hdfs传输到google云存储时加速distcp

axkjgtzd

axkjgtzd1#

官方文件指出,将数据从本地集群传输到gcp的最佳选择之一是通过internet使用vpn隧道,甚至使用多个vpn隧道来增加带宽。
建议的其他选择是在谷歌的边缘存在点(pops)和你的网络之间使用直接对等,或者在云互联服务提供商的帮助下建立与谷歌网络的直接连接。

相关问题