色调、Yarn和oozie之间有什么区别

zpqajqem  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(656)

我理解hdfs和map reduce的概念,以及将处理逻辑转移到数据以提高效率的重要性。我甚至可以在我的基本hadoop集群上运行几个map reduce作业。围绕着这些概念,有很多不同的技术,比如Yarn、色调、oozie,所有这些技术似乎都在做同样的事情(至少从一个非常高的层次上来说),那就是作业的操作可见性和crud能力(可以是map reduce或其他东西)。
我的假设是正确的还是两者之间有更根本的区别?
谢谢,凯

7bsow1i6

7bsow1i61#

yarn-MapReduce是api,您必须在其中实现数据处理逻辑。一旦代码被编译,您就必须使用 hadoop jar 命令。yarn是一个框架,它可以跟踪资源、在集群上提交作业、执行作业、显示/记录进度。
以数据集成为例。您可能需要从一个数据库中获取一个数据集,从另一个数据库中获取另一个数据集,然后要加入、处理数据并将其重新加载到缓存或第三个数据库中。它包括两个sqoop作业来从数据库中提取数据,一个hive/map reduce作业来连接和处理数据,然后推送到cache/database中。所有这些工作都是相互依赖的,例如:我们应该在从源数据库中提取数据之后才处理数据。因此,我们需要创建一个工作流来执行完整的数据集成过程。oozie可以帮你。它是基于map-reduce的工作流工具。工作流本身将作为一个或多个map reduce作业执行。
hue:在hadoop中有很多工具-hdfs(文件系统)、sqoop、hive/pig来处理数据、impala、hbase等等。要执行poc,连接到集群可能会变得单调乏味。它还需要一些linux技能。为了克服这些挑战,所有的hadoop生态系统工具都整合在一个叫做hue的保护伞下。

相关问题