我们的hadoop集群只有2个数据节点在 HDFS 我们定义的配置 Block replication 至 3 所以
HDFS
Block replication
3
Block replication=3
可以吗?定义 Block replication=3 ,此时群集中只有两个数据节点从我的理解,当我们定义块 replication=3 我们有两个数据节点在机器上 HDFS 集群意味着一台机器应该有两个副本,而另一台机器应该有一个副本,我在这里说的对吗?
replication=3
jv4diomz1#
复制因子的全部目的是容错。例如,复制因子是3,如果我们从集群中丢失hadoop datanode,我们可以在集群中用另外两个副本复制数据。因此,在您的例子中,如果datanodes的数量是2,如果复制因子是3,那么如果node-a有2个副本,而另一个node-b有1个副本(比如)。如果我们丢失了一个节点-a或节点-b,那么在这里,我们将拥有其他节点中可用的数据,以满足任何目的。除了node-a将占用双空间这一事实之外,这是不必要的,因为复制因子2本身已经满足容错目的。同样,这个解释是针对你的情况的。当在一个有两个以上节点的集群中进行可视化时,整个概念将更有意义。下面是hadoop文档的详细解释https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#data+复制
1条答案
按热度按时间jv4diomz1#
复制因子的全部目的是容错。例如,复制因子是3,如果我们从集群中丢失hadoop datanode,我们可以在集群中用另外两个副本复制数据。因此,在您的例子中,如果datanodes的数量是2,如果复制因子是3,那么如果node-a有2个副本,而另一个node-b有1个副本(比如)。如果我们丢失了一个节点-a或节点-b,那么在这里,我们将拥有其他节点中可用的数据,以满足任何目的。除了node-a将占用双空间这一事实之外,这是不必要的,因为复制因子2本身已经满足容错目的。
同样,这个解释是针对你的情况的。当在一个有两个以上节点的集群中进行可视化时,整个概念将更有意义。
下面是hadoop文档的详细解释https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#data+复制