我想为不同的项目设置单独的数据节点(不想在两个项目之间共享数据节点)
我可以在cloudera管理器中看到使用共享cloudera管理器的两个不同集群的选项。因此,我可以有一个单独的集群,只包含数据节点,并与早期的集群共享hdfs和Yarn管理器。yarn/hdfs主服务必须有两个独立的fsimage/编辑日志和资源管理器,我猜(或者在主节点上有什么服务器配置,这些配置将与新的集群数据节点和安装在其上的客户端进程共享)
有可能吗?以前有人这样做过吗。表现如何?我指的是这份文件->[http://www.cloudera.com/documentation/archive/manager/4-x/4-5-1/cloudera-manager-enterprise-edition-user-guide/cmeeug_topic_6.html][使用一个cm的多集群cloudera文档]
我们是否可以为hdfs设置一些规则,只为特定的数据集/目录存储/使用特定的数据节点集,以便实现分离?
提前谢谢。
1条答案
按热度按时间z9ju0rcb1#
您参考的文档是如何使用一个cloudera管理器安装来管理多个独立集群。我认为你想做的事是不可能的。这不是hadoop设计的工作方式。在接下来的5.7和5.8版本的cm和cdh中,hadoop上的多租户变得更加容易。如果你真的做到了,而且我不确定你能做到,那么表现会很糟糕。
典型的思维过程是尽可能靠近数据运行守护进程(mr、hive、impala)。如果您担心的是不同的客户机有不同的数据节点,那么您可以很容易地解决这个问题,而不必尝试使用kerberos和sentry形式的配额和良好的安全性对集群进行网格化。你最感兴趣的服务是什么?yarn本身只是一个资源管理器,所以我猜您现在正在查看mapreduce和hdfs。你打算做什么分析吗?你应该用Hive或 Impala 来做。