我正在尝试将我们组织的hadoop作业迁移到gcp…我混淆了gcp数据流和数据过程。。。我想重用我们已经创建的hadoop作业,并尽可能地减少集群的管理。我们还希望能够在集群的生命周期之外保存数据。。。有人能建议吗
nkcskrwz1#
这在很大程度上取决于您的hadoop作业的性质以及您在选择cloud dataproc(托管大数据平台-hadoop/spark的定位)和/或cloud dataflow(托管大数据平台-apache beam流式处理用例的定位)方面执行的活动。为了确保操作之外数据的持久性,您可能需要考虑将您的数据存储在gcs或pd上,如果这是一个选项,您的用例需要的话。
56lgkhnf2#
我只想从dataproc开始,因为它非常接近您所拥有的。检查dataproc初始化操作,https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并感受它。数据流是完全管理的,您不需要操作任何集群资源,但同时您不能将现场集群迁移到数据流,您需要迁移(有时重写)您的hive/pig/oozie等。dataflow的成本计算方式也不同,尽管与dataproc相比没有预付成本,但每次运行作业时,都会在dataflow上产生一些与之相关的成本。
2条答案
按热度按时间nkcskrwz1#
这在很大程度上取决于您的hadoop作业的性质以及您在选择cloud dataproc(托管大数据平台-hadoop/spark的定位)和/或cloud dataflow(托管大数据平台-apache beam流式处理用例的定位)方面执行的活动。
为了确保操作之外数据的持久性,您可能需要考虑将您的数据存储在gcs或pd上,如果这是一个选项,您的用例需要的话。
56lgkhnf2#
我只想从dataproc开始,因为它非常接近您所拥有的。
检查dataproc初始化操作,https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并感受它。
数据流是完全管理的,您不需要操作任何集群资源,但同时您不能将现场集群迁移到数据流,您需要迁移(有时重写)您的hive/pig/oozie等。
dataflow的成本计算方式也不同,尽管与dataproc相比没有预付成本,但每次运行作业时,都会在dataflow上产生一些与之相关的成本。