我正在我的网络上创建一个小的hadoop集群。我有1个namenode和2个datanode:
garage => NameNode
garage2 => DataNode
garage3 => DataNode
在namenode上,我使用以下格式格式化了hdfs:
hadoop namenode -format
然后我创建了用户目录:
hadoop dfs -mkdir /user
hadoop dfs -mkdir /user/erik
hadoop dfs -mkdir movielens
然后我上传了几个文件来测试:
hadoop dfs -put * movielens
我的期望是两个datanode都包含数据的完整副本,因为在hdfs-site.xml中我的复制因子设置为2(所有3个节点上的配置文件相同):
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/mnt/data/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/mnt/data/hdfs/datanode</value>
</property>
<property>
<name>dfs.namenode.datanode.registration.ip-hostname-check</name>
<value>false</value>
</property>
但是,我发现磁盘上hdfs文件夹中的数据文件分布不均匀:
garage2(数据节点):
erik@garage2:/mnt/data/hdfs$ du -h
4.0K ./datanode/current/BP-152062109-192.168.0.100-1475633473579/tmp
4.0K ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/rbw
619M ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/finalized/subdir0/subdir0
619M ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/finalized/subdir0
619M ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current/finalized
619M ./datanode/current/BP-152062109-192.168.0.100-1475633473579/current
619M ./datanode/current/BP-152062109-192.168.0.100-1475633473579
619M ./datanode/current
619M ./datanode
619M .
从garage3(数据节点):
erik@garage3:/mnt/data/hdfs$ du -h
4.0K ./datanode
8.0K .
我的配置中是否遗漏了一些甚至会导致此分发/数据复制失败的内容?
暂无答案!
目前还没有任何答案,快来回答吧!