hadoop数据节点上的不均匀数据复制

g6baxovj  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(248)

我正在我的网络上创建一个小的hadoop集群。我有1个namenode和2个datanode:

garage => NameNode
garage2 => DataNode
garage3 => DataNode

在namenode上,我使用以下格式格式化了hdfs:

hadoop namenode -format

然后我创建了用户目录:

hadoop dfs -mkdir /user
hadoop dfs -mkdir /user/erik
hadoop dfs -mkdir movielens

然后我上传了几个文件来测试:

hadoop dfs -put * movielens

我的期望是两个datanode都包含数据的完整副本,因为在hdfs-site.xml中我的复制因子设置为2(所有3个节点上的配置文件相同):

<property>
   <name>dfs.replication</name>
   <value>2</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/mnt/data/hdfs/namenode</value>
 </property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/mnt/data/hdfs/datanode</value>
 </property>
 <property>
   <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
   <value>false</value>
 </property>

但是,我发现磁盘上hdfs文件夹中的数据文件分布不均匀:
garage2(数据节点):

erik@garage2:/mnt/data/hdfs$ du -h
4.0K    ./datanode/current/BP-152062109-192.168.0.100-1475633473579/tmp
4.0K    ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/rbw
619M    ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/finalized/subdir0/subdir0
619M    ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/finalized/subdir0
619M    ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/finalized
619M    ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current
619M    ./datanode/current/BP-152062109-192.168.0.100-1475633473579
619M    ./datanode/current
619M    ./datanode
619M    .

从garage3(数据节点):

erik@garage3:/mnt/data/hdfs$ du -h
4.0K    ./datanode
8.0K    .

我的配置中是否遗漏了一些甚至会导致此分发/数据复制失败的内容?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题