如何在premhadoop上迁移到gcp

q7solyqu 于 2021-05-27 发布在 Hadoop

关注(0)|答案(2)|浏览(395)

我正在尝试将我们组织的hadoop作业迁移到gcp…我混淆了gcp数据流和数据过程。。。
我想重用我们已经创建的hadoop作业，并尽可能地减少集群的管理。我们还希望能够在集群的生命周期之外保存数据。。。
有人能建议吗

hadoop google-cloud-platform google-cloud-dataproc google-cloud-dataflow

来源：https://stackoverflow.com/questions/54627640/how-to-migrate-on-prem-hadoop-to-gcp

2条答案

按热度按时间

nkcskrwz1#

这在很大程度上取决于您的hadoop作业的性质以及您在选择cloud dataproc（托管大数据平台-hadoop/spark的定位）和/或cloud dataflow（托管大数据平台-apache beam流式处理用例的定位）方面执行的活动。
为了确保操作之外数据的持久性，您可能需要考虑将您的数据存储在gcs或pd上，如果这是一个选项，您的用例需要的话。

赞(0）回复(0）举报 2021-05-27

56lgkhnf2#

我只想从dataproc开始，因为它非常接近您所拥有的。
检查dataproc初始化操作，https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions，创建一个简单的集群并感受它。
数据流是完全管理的，您不需要操作任何集群资源，但同时您不能将现场集群迁移到数据流，您需要迁移（有时重写）您的hive/pig/oozie等。
dataflow的成本计算方式也不同，尽管与dataproc相比没有预付成本，但每次运行作业时，都会在dataflow上产生一些与之相关的成本。

赞(0）回复(0）举报 2021-05-27

我来回答

如何在premhadoop上迁移到gcp

2条答案

相关问题

热门标签

最新问答