在运行的spark/hadoop集群中添加hdfs数据节点

zzwlnbp8 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(404)

我有一个spark集群，有1个主节点和2个节点（worker+datanode）。
我想添加另一个数据节点。问题是，当我这么做的时候 hdfs dfs -setrep -R -w 2 ，结果是：

1st datanode -> DFS Used%: 75.61%
    2nd datanode -> DFS Used%: 66.78%
    3rd datanode -> DFS Used%: 8.83%

你知道如何平衡hdfs中的数据块，使每个数据块的比例接近30%->33%吗？
谢谢

hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/42141498/adding-a-hdfs-datanode-in-a-running-spark-hadoop-cluster

1条答案

按热度按时间

ecbunoof1#

跑 balancer ，群集平衡实用程序。这将在datanodes之间重新平衡数据。

hdfs balancer -threshold <threshold_value>
``` `-threshold` 确定磁盘容量的百分比。默认值为10。
这指定每个datanode的磁盘使用率必须或应该调整为集群总体使用率的10%以内。
此过程可能需要更长的时间，具体取决于要平衡的数据量，并且不会影响群集操作。
或者，如果选择添加其他节点，则执行datanode调试。

赞(0）回复(0）举报 2021-06-02

我来回答

在运行的spark/hadoop集群中添加hdfs数据节点

1条答案

相关问题

热门标签

最新问答