hadoop客户端可以利用机架感知的好处吗?

xuo3flqw  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(302)

我有10个摄取机器,使用akka流进行数据摄取。我有一个50个节点的hadoop集群,并使用spark流运行管道。hadoop集群使用10台机器生成的数据来生成报告。我可以利用这10台机器的机架感知功能而不将它们作为hadoop集群的一部分添加吗?
当我说机架感知时,我的意思是如果这些机器和hadoop数据节点在同一个机架中,那么使用机架感知,我希望每个摄取机器将数据上传到最近的数据节点,而不是随机方式,这样我的网络流量就会更少。
如果可能的话请告诉我。

cx6n0qe3

cx6n0qe31#

如果我正确理解你的设置,这应该自动发生。根据hdfs架构:
对于常见情况,当复制系数为3时,hdfs的放置策略是,如果写入程序位于数据节点上,则将一个副本放在本地计算机上;否则,将另一个副本放在与写入程序位于同一机架的随机数据节点上;将另一个副本放在不同(远程)机架的节点上;将最后一个副本放在同一远程机架的不同节点上。
(如果摄取节点不是集群数据节点,则突出显示与您的案例相关的内容。)

相关问题