我在google存储桶中有几百个文件(100000个)。文件大小约为2-10mb。我需要对每个文件应用一个简单的python函数(只是数据转换)。我需要并行读取一个bucket-转换(python函数)-并存储在另一个bucket中。我正在考虑一个简单的hadoop或spark集群来实现这一点。我以前在单个示例上使用并发线程来实现这一点,但我需要一种更健壮的方法。实现这一目标的最佳方法是什么?
我在google存储桶中有几百个文件(100000个)。文件大小约为2-10mb。我需要对每个文件应用一个简单的python函数(只是数据转换)。我需要并行读取一个bucket-转换(python函数)-并存储在另一个bucket中。我正在考虑一个简单的hadoop或spark集群来实现这一点。我以前在单个示例上使用并发线程来实现这一点,但我需要一种更健壮的方法。实现这一目标的最佳方法是什么?
1条答案
按热度按时间s5a0g9ez1#
您可以使用最近发布的googleclouddataproc(自2015年10月5日起为beta版),它为您提供了一个托管hadoop或spark集群。它与google云存储集成,因此您可以从bucket中读写数据。
你可以通过
gcloud
,控制台,或通过ssh连接到集群中的计算机。