如何知道mr2中的hdfs并发吞吐量

j2qf4p5b  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(526)

我是hadoop新手。最近我尝试使用testdfsio来评估我的hdfs性能,我有一个关于并发吞吐量的问题:
在mr 1中
并发吞吐量=报告吞吐量xMap时隙数
例如

Throughput MB/sec: 141.4427 
Map Slots=2 
Concurrent Throughput = 282.8854 MB/sec.

但是在mr2中(map和reduce slot都不再存在于yarn中),如何计算并发吞吐量?

lf5gs5x2

lf5gs5x21#

下面是一篇很好的简单文章,解释了这些“concurent”单词背后的大部分数学知识:
使用terasort、testdfsio&co对hadoop集群进行基准测试和压力测试。
并发吞吐量是指您确实可以处理多少数据(通过给定数量的Map器或缩减器)。如果您有100个Map器插槽,但您的工作只需要4个Map器-您只有4倍的平均吞吐量。在Yarn中,容器的数量是有限的。所以并发吞吐量大约是
[平均吞吐量]x[实际使用的集装箱数量]。
但为什么你需要这个什么都不告诉你的指标呢?例如,如果您的集群将是异构的(它们迟早会出现),那么您永远不会收到满负载。同样的情况也会发生,如果你的工作中有很多“波”。
hadoop集群的真正威力不在于集群本身,而在于在总体上采用hadoop模型以及在特定情况下实现集群平衡。我经常会遇到这样的情况:在客户端,我的优化的暂存集群优于生产集群。这通常会导致关于客户集群配置或硬件平衡的协商,因为他们通常不考虑自己的具体情况。但是他们的硬件无疑比我的好。

相关问题