hadoop、hive、zookeeper等

kt06eoxx  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(282)

我开始学习hadoop。我对它有了一些了解,但当我读到关于hive、pig和apache的其他工具时,我感到困惑。所以,有人能简单介绍一下hadoop和apache工具(hive、pig、zookeeper等)吗?我想知道它们在处理大数据时是如何使用的,在哪里使用的。

beq87vna

beq87vna1#

apachehadoop或hadoop是一个开源框架,用于在基本机器集群上存储和处理大规模数据集。hadoop是自由软件社区正在构建和使用的领先的apache项目。
hadoop框架由以下模块组成:
hadoop common-包含hadoop模块所需的库和其他服务。
hdfs或hadoop分布式文件系统—在功能较弱的计算机上存储数据的分布式文件系统,在所有群集上提供高带宽。hdfs是一个文件系统,它可以通过扩展主机集群来存储非常大的数据集。具有特定的设计和性能特点;特别是,它针对吞吐量而不是延迟进行了优化,并通过复制而不是冗余实现了高可用性。
hadoop yarn—一个负责集群资源管理计算的平台,然后将其用于用户应用程序。
hadoop mapreduce-一个处理大规模数据的编程模型。mapreduce是一种数据处理范式,它采用一种规范,说明如何从两个阶段(称为map和reduce)输入和输出数据,然后将其应用于任意大的数据集。mapreduce与hdfs紧密集成,确保在可能的情况下,mapreduce任务直接在保存所需数据的hdfs节点上运行。
这就是hadoop框架的主要表现形式。但是除了我上面引用的内容之外,hadoop平台现在也由一些相关的项目组成——pig、hive、hbase、spark和mahout。
apachehive是一个建立在hadoop之上的数据仓库基础设施,用于提供数据摘要、查询和分析。
apachepig是一个高级平台,用于创建mapreduce程序,该程序与hadoop一起使用一种称为pig的语言
Apache ZooKER是Apache软件基金会的软件项目,为大型分布式系统提供开源分布式配置服务、同步服务和命名注册表。
apachemahout是一个可伸缩机器学习算法的框架,主要集中在协作过滤、聚类和分类领域。它使用hadoop平台(但不是必需的)。
名单很长。。。

相关问题