mapreduce工作流基准测试

fnvucqvd 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(335)

任何机构都可以通过任何基准测试mapreduce工作流吗？或者通常用bigdata工作流基准测试一些工作流系统（如oozie）的性能和准确性？
谢谢

hadoop oozie bigdata benchmarking workflow

来源：https://stackoverflow.com/questions/22949890/mapreduce-workflow-benchmarks

1条答案

按热度按时间

sz81bmfz1#

可能最著名的mapreduce基准是 Terasort . 它需要大量随机生成的记录，并对整个数据集进行排序。这模拟了一个真正的大规模mapreduce作业，其中包括mappers和reducer。它包含在mapreduce中，因此您不必单独安装它。
第一步是使用 Teragen ，使用mapreduce lib目录中的mapreduce examples jar：

hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>

第二步是跑步 Terasort 在生成的输入数据上。此步骤所用的时间是基准测试的结果：

hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>

（可选）第三步是使用验证输出结果是否正确 Teravalidate :

$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>

从一个集群到另一个集群比较这个基准的计时可能非常困难，但是它对于比较同一集群中的不同更改（例如修改配置或添加新节点）非常有用。
有一个深入的描述 Terasort 在这个博客里。

赞(0）回复(0）举报 2021-06-04

我来回答

mapreduce工作流基准测试

1条答案

相关问题

热门标签

最新问答