复制因子拇指规则

vm0i2vca  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(220)

我知道您是根据系统(事务日志、常规日志等)来决定复制系数的。但是,在决定复制因子时,有什么经验法则可以遵循或考虑吗?

huwehgph

huwehgph1#

通常主要因素是

fault tolerance
Performance by reducing network traffic.

对于常见情况,当复制系数为3时,hdfs的放置策略是将一个副本放在本地机架中的一个节点上,另一个放在不同(远程)机架中的节点上,最后一个放在同一远程机架中的不同节点上。此策略减少机架间写入通信量,这通常会提高写入性能。机架失效的几率远小于节点失效的几率;此策略不影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为一个块只放在两个而不是三个唯一的机架中。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另三分之一的副本均匀分布在其余机架上。此策略在不影响数据可靠性或读取性能的情况下提高了写入性能。

相关问题