hadoop基准测试的最佳实践是什么？

gkl3eglg 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(441)

我使用testdfsio来测试hadoop的i/o性能。我使用的测试平台是一个由3个数据节点和一个名称节点组成的小型虚拟集群。每个虚拟机将有6-8gbram和100-250gbhdd。
我想知道两件事：
关于我的设置，每个文件的文件数（nrfiles）和文件大小（filesize）参数的值应该是多少，这样我们就可以将我的小型集群的结果与标准大小的集群相关联，例如具有8-12 x 2-tb硬盘和64 gbs ram以及更高的处理速度。这样做对吗。
一般来说，hadoop基准测试的最佳实践是什么？比如：什么是推荐的集群规范（datanodes，namenodes的规范），推荐的测试数据大小，为了得到符合实际hadoop应用程序的结果，测试台应该有什么配置/规范
简单地说，我想知道正确的hadoop测试设备设置和正确的测试方法，以便我的结果与生产集群相关。
这将有助于参考已证实的工作。
另一个问题是假设我有-nrfiles 15-filesize 1gb，我发现map任务的数量将等于提到的nrfiles的数量，但是它们是如何分布在3个数据节点中的呢？我不清楚Map任务的数量。是不是像15个文件，每个文件将有一个Map工作呢？
我没有找到任何文档或描述testdfsio究竟是如何工作的。

hadoop apache bigdata benchmarking

来源：https://stackoverflow.com/questions/39716995/what-are-the-best-practices-for-hadoop-benchmarking

1条答案

按热度按时间

xwmevbvl1#

不能比较两个群集的结果。结果可能因节点上Map器的数量、复制因子、网络等而异。群集规范将取决于您尝试使用它的目的。如果您提供-nrfiles15-filesize1000，那么每个1gb将创建15个文件。每个Map器将在一个文件上工作，因此将有15个Map任务。对于3节点集群，假设一个节点上只有1个Map器，那么将有5个波来写入完整的数据。有关testdfsio和其他基准测试工具，请参阅以下链接：http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop基准测试的最佳实践是什么？

1条答案

相关问题

热门标签

最新问答