如何在premhadoop上迁移到gcp

q7solyqu  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(384)

我正在尝试将我们组织的hadoop作业迁移到gcp…我混淆了gcp数据流和数据过程。。。
我想重用我们已经创建的hadoop作业,并尽可能地减少集群的管理。我们还希望能够在集群的生命周期之外保存数据。。。
有人能建议吗

nkcskrwz

nkcskrwz1#

这在很大程度上取决于您的hadoop作业的性质以及您在选择cloud dataproc(托管大数据平台-hadoop/spark的定位)和/或cloud dataflow(托管大数据平台-apache beam流式处理用例的定位)方面执行的活动。
为了确保操作之外数据的持久性,您可能需要考虑将您的数据存储在gcs或pd上,如果这是一个选项,您的用例需要的话。

56lgkhnf

56lgkhnf2#

我只想从dataproc开始,因为它非常接近您所拥有的。
检查dataproc初始化操作,https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并感受它。
数据流是完全管理的,您不需要操作任何集群资源,但同时您不能将现场集群迁移到数据流,您需要迁移(有时重写)您的hive/pig/oozie等。
dataflow的成本计算方式也不同,尽管与dataproc相比没有预付成本,但每次运行作业时,都会在dataflow上产生一些与之相关的成本。

相关问题