这个问题在这里已经有答案了:
hadoop dfs复制(4个答案)5年前关门了。我使用hadoop已经有一段时间了。在配置hadoop时,我使用了名为dfs.replication的属性。但我不知道它是怎么工作的。请帮帮我。
bfrts1fy1#
默认块复制。创建文件时可以指定实际的复制次数。如果在创建时中未指定复制,则使用默认值。默认值是3,这意味着如果在hdfs位置放置一个dump,那么将存储3个repleca,因为framework将文件拆分为一组块(64 mb或128 mb),然后这些块将跨集群节点复制。根据需要和使用的数据和大小,可以设置复制。
brc7rcf02#
hadoop的一个好处是它允许您在集群中可靠地存储大文件,因此即使一个文件损坏,您也不会丢失数据。这适用于复制:每个文件被划分为数据块(其大小可通过属性进行配置) dfs.blocksize )它们存储在集群中的不同节点中,每个块将被复制x次,即x是您写入的数字 dfs.replication . 因此,如果您的一个数据块被损坏,那么集群中的某个地方将有它的其他副本,这样您就不会丢失数据。如果将其设置为1,则它将不具有容错性,因为这意味着每个块只有一个副本。但是,如果将其设置为2,但一个块丢失,则会有另一个块的副本。
dfs.blocksize
dfs.replication
2条答案
按热度按时间bfrts1fy1#
默认块复制。创建文件时可以指定实际的复制次数。如果在创建时中未指定复制,则使用默认值。默认值是3,这意味着如果在hdfs位置放置一个dump,那么将存储3个repleca,因为framework将文件拆分为一组块(64 mb或128 mb),然后这些块将跨集群节点复制。
根据需要和使用的数据和大小,可以设置复制。
brc7rcf02#
hadoop的一个好处是它允许您在集群中可靠地存储大文件,因此即使一个文件损坏,您也不会丢失数据。这适用于复制:每个文件被划分为数据块(其大小可通过属性进行配置)
dfs.blocksize
)它们存储在集群中的不同节点中,每个块将被复制x次,即x是您写入的数字dfs.replication
. 因此,如果您的一个数据块被损坏,那么集群中的某个地方将有它的其他副本,这样您就不会丢失数据。如果将其设置为1,则它将不具有容错性,因为这意味着每个块只有一个副本。但是,如果将其设置为2,但一个块丢失,则会有另一个块的副本。