hadoop dfs复制

omvjsjqw  于 2021-06-03  发布在  Hadoop
关注(0)|答案(4)|浏览(321)

抱歉,伙计们,只是一个简单的问题,但我不能在谷歌上找到确切的问题。关于dfs.replication是什么意思的问题?如果我在hdfs中创建了一个名为filmdata.txt的文件,如果我设置dfs.replication=1,那么它是一个文件(一个filmdata.txt)?还是除了主文件(filmdata.txt)之外,hadoop还会创建另一个复制文件。很快say:if set dfs.replication=1,一共有一个filmdata.txt,还是两个filmdata.txt?提前谢谢

lx0bsm1f

lx0bsm1f1#

文件系统中的文件总数将是在dfs.replication factor中指定的。因此,如果将dfs.replication设置为1,则文件系统中只有一个文件副本。
检查apache文档中的其他配置参数。

vaqhlq81

vaqhlq812#

praveen提供的链接现在已断开。下面是描述参数dfs.replication的更新链接。
请参阅hadoop集群设置。有关配置参数的详细信息。
您可能需要注意的是,文件可以跨越多个块,并且每个块将被复制dfs.replication中指定的次数(默认值为3)。此类块的大小在参数dfs.block.size中指定。

zd287kbt

zd287kbt3#

在hdfs框架中,我们使用商品机器来存储数据,这些商品机器不是像服务器那样的高端机器,内存高,会有可能丢失数据节点(d1、d2、d3)或数据块(b1、b2、b3),结果hdfs框架将每个数据块(64mb,128mb)分为三个复制(默认情况下),每个块将存储在单独的数据节点(d1、d2、d3)中。现在考虑块(b1)在数据节点(d1)中损坏。块(b1)的副本在数据节点(d2)和数据节点(d3)中也可用,以便客户端可以请求数据节点(d2)处理块(b1)数据并提供结果,与数据节点(d2)失败时相同。客户端可以请求数据节点(d3)处理块(b1)数据。这称为-dfs.replication。
希望你能说清楚。

rpppsulh

rpppsulh4#

为了确保数据的高可用性,hadoop复制了数据。
当我们将文件存储到hdfs中时,hadoop框架将文件拆分为一组块(64 mb或128 mb),然后这些块将跨集群节点进行复制。dfs.replication的配置是指定需要多少次复制。
dfs.replication的默认值是3,但这是可配置的,具体取决于您的群集设置。
希望这有帮助。

相关问题