hive—apache airflow如何实现可伸缩性?

h79rfbju  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(321)

我看到,气流中的许多操作员将数据存储在本地,然后再将其上载到目标系统。这意味着工作节点正在做大量的工作,以防数据太大。
airbnb(开源airflow的公司)说,早在2015年,他们在airflow集群中只有6个节点可以提供5000个工作岗位。
我是不是漏了什么?
请帮助理解。

mnowg1ta

mnowg1ta1#

apacheairflow的主要目的是任务调度和监视。它不是设计成一个通用的数据处理引擎。与其认为是apachespark或apachehive的替代品,不如认为是oozie的替代品。
虽然气流可以缩放it工人(使用mesos、rabbitmq/celery ),但重型提升仍然由分析系统执行。例如,airflow可以管理您的spark作业和druid查询,处理更改等等。

相关问题