我知道您是根据系统(事务日志、常规日志等)来决定复制系数的。但是,在决定复制因子时,有什么经验法则可以遵循或考虑吗?
huwehgph1#
通常主要因素是
fault tolerance Performance by reducing network traffic.
对于常见情况,当复制系数为3时,hdfs的放置策略是将一个副本放在本地机架中的一个节点上,另一个放在不同(远程)机架中的节点上,最后一个放在同一远程机架中的不同节点上。此策略减少机架间写入通信量,这通常会提高写入性能。机架失效的几率远小于节点失效的几率;此策略不影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为一个块只放在两个而不是三个唯一的机架中。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另三分之一的副本均匀分布在其余机架上。此策略在不影响数据可靠性或读取性能的情况下提高了写入性能。
1条答案
按热度按时间huwehgph1#
通常主要因素是
对于常见情况,当复制系数为3时,hdfs的放置策略是将一个副本放在本地机架中的一个节点上,另一个放在不同(远程)机架中的节点上,最后一个放在同一远程机架中的不同节点上。此策略减少机架间写入通信量,这通常会提高写入性能。机架失效的几率远小于节点失效的几率;此策略不影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为一个块只放在两个而不是三个唯一的机架中。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另三分之一的副本均匀分布在其余机架上。此策略在不影响数据可靠性或读取性能的情况下提高了写入性能。