我是hadoop/cloudera世界的新手,我需要在microsoftazure云上设置cloudera集群。如果我理解正确,在集群上安装cloudera有两种方法:使用cloudera管理器或手动安装。根据这个模式,似乎需要一个专用机器来管理cloudera和3个主节点。
但是在这个表中,我似乎可以直接在主节点上安装cloudera管理器。
以下是我的疑问:
1) 是否有必要在专用机器中安装cloudera manager(如果有,为什么)?或者可以直接安装在主节点上?
2) 为什么有3个主节点?据我所知,2个主节点可以用于高可用性(它们是彼此的镜像,具有相同的配置和服务,可以用于热交换)。第三个主节点的用途是什么?为什么它与其他两个不同?
3) cloudera director的目的是什么?与cloudera managera有哪些区别?我已经读到它可以用于云的自动化部署,但我不清楚我到底可以用它做什么。
提前感谢您提供任何信息。
1条答案
按热度按时间shstlldc1#
您可以从cloudera文档中看到https://www.cloudera.com/documentation/enterprise/5-8-x/topics/cm_ig_host_allocations.html 根据群集大小和高可用性要求,您可以拥有不同数量的主节点:
对于最多有10个工作节点且不具有高可用性的小型集群,您只能有一个主节点(不建议用于生产)
对于具有高可用性的小型集群,可以有两个主节点
一个更大的集群(最多200个工作节点)可以有三个主节点—请注意,它们的示例只运行两个namenode示例,因为这样做的目的是将工作负载分散到更多的节点上,而不是对该角色进行多数投票。
多达1000个工作节点和5个主节点。
类似地,在上面的前两种情况下,用于cloudera manager的实用程序主机用于所有实用程序和边缘角色,然后随着集群大小的增大,会显示更多的实用程序主机,在这些情况下,cloudera manager是其主机上运行的唯一实用程序。
https://www.cloudera.com/products/product-components/cloudera-director.html 描述clouderadirector,它是一个帮助您在公共云(aws/azure/googlecloud)中运行hadoop集群的工具。cloudera director与cloudera manager合作,提供云集群的集中管理。https://www.cloudera.com/documentation/director/2-2-x/topics/director_cdh_cluster_management.html 对于clouderadirector和clouderamanager之间的差异也是一个有用的参考。