我建造了 HDFS (2个数据节点)。我将数据存储在 HDFS .我想用两个datanode来平衡存储数据。但是当我使用 CLI ( hadoop fs -put )有没有人能找到一个解决方案?如何将数据准确地存储为两个独立的数据?
HDFS
CLI
hadoop fs -put
41ik7eoe1#
如果您的复制因子设置正确,并且您真的只想平衡日期,请使用: hadoop balancer [-threshold <threshold>] hadoop文档页面上有很多关于再平衡的信息(pdf格式)。
hadoop balancer [-threshold <threshold>]
dgtucam12#
听起来像是在问如何设置复制因子。如果有2个数据节点,则复制系数为2将确保所有文件都存储在这两个节点上。您可以在hadoop conf目录的hdfs-site.xml中进行设置。您要设置:
<property> <name>dfs.replication</name> <value>2</value> </property>
您还可以运行 setrep 更改特定文件或目录的复制因子的命令:
setrep
hadoop fs -setrep -R 2 <path>
-r当然使它递归。
2条答案
按热度按时间41ik7eoe1#
如果您的复制因子设置正确,并且您真的只想平衡日期,请使用:
hadoop balancer [-threshold <threshold>]
hadoop文档页面上有很多关于再平衡的信息(pdf格式)。dgtucam12#
听起来像是在问如何设置复制因子。如果有2个数据节点,则复制系数为2将确保所有文件都存储在这两个节点上。您可以在hadoop conf目录的hdfs-site.xml中进行设置。您要设置:
您还可以运行
setrep
更改特定文件或目录的复制因子的命令:-r当然使它递归。