我正在尝试将google云存储文件加载到内部hadoop集群。我开发了一个解决方法(程序)来下载本地edgenode和 distcp
到hadoop。但这似乎是双向的解决办法,并没有多少令人印象深刻。我已经浏览了一些网站(links1,link2),它们总结了使用hadoop-google云存储连接器来完成这个过程,并且需要基础设施级别的配置,这在所有情况下都是不可能的。
有没有办法用python或java编程将文件直接从云存储复制到hadoop。
我正在尝试将google云存储文件加载到内部hadoop集群。我开发了一个解决方法(程序)来下载本地edgenode和 distcp
到hadoop。但这似乎是双向的解决办法,并没有多少令人印象深刻。我已经浏览了一些网站(links1,link2),它们总结了使用hadoop-google云存储连接器来完成这个过程,并且需要基础设施级别的配置,这在所有情况下都是不可能的。
有没有办法用python或java编程将文件直接从云存储复制到hadoop。
1条答案
按热度按时间xdnvmnnf1#
要以编程方式实现这一点,可以直接使用云存储api客户端库从云存储下载文件并将其保存到hdfs。
但是,在本地hadoop集群上安装云存储连接器并使用distcp将文件从云存储下载到hdfs将更加简单和容易。