aws emr hadoop管理

cxfofazt  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(441)

我们目前正在组织中使用apachehadoop(香草版)。我们计划迁移到aws emr。我试图理解aws emr hadoop是如何在内部工作的(而不是如何使用它),我主要对hadoop的管理步骤以及主从通信方式和各种配置感兴趣。我已经查看了aws emr文档,但没有看到详细的比较。
有人能给我推荐一个从apachehadoop迁移到aws emr的链接/教程吗。

mrzz3bfm

mrzz3bfm1#

amazonelasticmapreduce主要使用hadoop和相关工具的标准实现。
请参阅:amazon emr中支持的ami版本
使用emr的好处在于示例的自动部署。例如,使用适当的ami启动集群意味着软件已经加载到每个示例上,并且hdfs是跨核心节点配置的。
主节点和从节点(核心/任务)的通信方式与它们在任何hadoop集群中的通信方式完全相同。但是,只支持一个主机(不支持备份主机)。
迁移到emr时,请检查您是否使用兼容版本的软件(如hadoop、hive、pig、impala等)。还要考虑使用amazons3来存储数据,而不是hdfs,尤其是存储源数据,因为即使在emr集群终止之后,s3上的数据仍然存在。

91zkwejq

91zkwejq2#

在创建emr集群的过程中,它会要求您指定master和node。默认设置将为您提供1个主节点和2个节点。您还可以指定希望在集群中的所有应用程序(例如:hadoop、hive、spark、zeppelin、hue等)。
一旦创建集群,它将提供所有服务。您可以单击这些服务并通过web访问它们,或者使用ssh访问主服务器。例如:要访问ambari界面,请转到emr中的服务并单击它。一个新的窗口将与Ambari监测服务接口启动。
安装这些应用程序非常简单。您所要做的就是在创建集群时指定所有服务。

相关问题