在googlecloud中处理多个对象

mqkwyuun 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(334)

我在google存储桶中有几百个文件（100000个）。文件大小约为2-10mb。我需要对每个文件应用一个简单的python函数（只是数据转换）。我需要并行读取一个bucket-转换（python函数）-并存储在另一个bucket中。我正在考虑一个简单的hadoop或spark集群来实现这一点。我以前在单个示例上使用并发线程来实现这一点，但我需要一种更健壮的方法。实现这一目标的最佳方法是什么？

hadoop python google-cloud-storage hadoop-streaming google-compute-engine

来源：https://stackoverflow.com/questions/32960001/process-multiple-objects-in-google-cloud

1条答案

按热度按时间

您可以使用最近发布的googleclouddataproc（自2015年10月5日起为beta版），它为您提供了一个托管hadoop或spark集群。它与google云存储集成，因此您可以从bucket中读写数据。
你可以通过 gcloud ，控制台，或通过ssh连接到集群中的计算机。

赞(0）回复(0）举报 2021-05-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前