我看到,气流中的许多操作员将数据存储在本地,然后再将其上载到目标系统。这意味着工作节点正在做大量的工作,以防数据太大。airbnb(开源airflow的公司)说,早在2015年,他们在airflow集群中只有6个节点可以提供5000个工作岗位。我是不是漏了什么?请帮助理解。
mnowg1ta1#
apacheairflow的主要目的是任务调度和监视。它不是设计成一个通用的数据处理引擎。与其认为是apachespark或apachehive的替代品,不如认为是oozie的替代品。虽然气流可以缩放it工人(使用mesos、rabbitmq/celery ),但重型提升仍然由分析系统执行。例如,airflow可以管理您的spark作业和druid查询,处理更改等等。
1条答案
按热度按时间mnowg1ta1#
apacheairflow的主要目的是任务调度和监视。它不是设计成一个通用的数据处理引擎。与其认为是apachespark或apachehive的替代品,不如认为是oozie的替代品。
虽然气流可以缩放it工人(使用mesos、rabbitmq/celery ),但重型提升仍然由分析系统执行。例如,airflow可以管理您的spark作业和druid查询,处理更改等等。