在googlecloud中处理多个对象

mqkwyuun  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(333)

我在google存储桶中有几百个文件(100000个)。文件大小约为2-10mb。我需要对每个文件应用一个简单的python函数(只是数据转换)。我需要并行读取一个bucket-转换(python函数)-并存储在另一个bucket中。我正在考虑一个简单的hadoop或spark集群来实现这一点。我以前在单个示例上使用并发线程来实现这一点,但我需要一种更健壮的方法。实现这一目标的最佳方法是什么?

s5a0g9ez

s5a0g9ez1#

您可以使用最近发布的googleclouddataproc(自2015年10月5日起为beta版),它为您提供了一个托管hadoop或spark集群。它与google云存储集成,因此您可以从bucket中读写数据。
你可以通过 gcloud ,控制台,或通过ssh连接到集群中的计算机。

相关问题