在运行的spark/hadoop集群中添加hdfs数据节点

zzwlnbp8  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(404)

我有一个spark集群,有1个主节点和2个节点(worker+datanode)。
我想添加另一个数据节点。问题是,当我这么做的时候 hdfs dfs -setrep -R -w 2 ,结果是:

1st datanode -> DFS Used%: 75.61%
    2nd datanode -> DFS Used%: 66.78%
    3rd datanode -> DFS Used%: 8.83%

你知道如何平衡hdfs中的数据块,使每个数据块的比例接近30%->33%吗?
谢谢

ecbunoof

ecbunoof1#

balancer ,群集平衡实用程序。这将在datanodes之间重新平衡数据。

hdfs balancer -threshold <threshold_value>
``` `-threshold` 确定磁盘容量的百分比。默认值为10。
这指定每个datanode的磁盘使用率必须或应该调整为集群总体使用率的10%以内。
此过程可能需要更长的时间,具体取决于要平衡的数据量,并且不会影响群集操作。
或者,如果选择添加其他节点,则执行datanode调试。

相关问题