我正在学习Hadoop,我已经从经典的wordcount例子开始了。
我一直在使用这个回购协议:https://github.com/m-semnani/bd-infra(不过,我现在只需要Hadoop部分。)
我用少量的数据运行了这个程序。
我的疑问是,如果需要更多的数据节点来处理更大的数据,我如何知道。
我是否可以设置一些规则,例如..如果CPU /内存/存储超过特定限制..我可能需要再部署一个datanode(或namenode)副本
实现此目的的正确方法是什么?
我正在学习Hadoop,我已经从经典的wordcount例子开始了。
我一直在使用这个回购协议:https://github.com/m-semnani/bd-infra(不过,我现在只需要Hadoop部分。)
我用少量的数据运行了这个程序。
我的疑问是,如果需要更多的数据节点来处理更大的数据,我如何知道。
我是否可以设置一些规则,例如..如果CPU /内存/存储超过特定限制..我可能需要再部署一个datanode(或namenode)副本
实现此目的的正确方法是什么?
1条答案
按热度按时间lg40wkob1#
HDFS的一般经验法则是,当集群总容量超过80%时,就应该扩展、压缩或删除数据。
但是,这并不是性能的唯一指标,因为在扩展和添加更多数据之后,NameNode堆和文件计数开始成为一个问题,此时,您需要考虑NameNode联合(而不是副本),而不是简单的HDFS集群扩展。