将文件从google云存储加载到本地hadoop集群

dy1byipe  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(377)

我正在尝试将google云存储文件加载到内部hadoop集群。我开发了一个解决方法(程序)来下载本地edgenode和 distcp 到hadoop。但这似乎是双向的解决办法,并没有多少令人印象深刻。我已经浏览了一些网站(links1,link2),它们总结了使用hadoop-google云存储连接器来完成这个过程,并且需要基础设施级别的配置,这在所有情况下都是不可能的。
有没有办法用python或java编程将文件直接从云存储复制到hadoop。

xdnvmnnf

xdnvmnnf1#

要以编程方式实现这一点,可以直接使用云存储api客户端库从云存储下载文件并将其保存到hdfs。
但是,在本地hadoop集群上安装云存储连接器并使用distcp将文件从云存储下载到hdfs将更加简单和容易。

相关问题