任何机构都可以通过任何基准测试mapreduce工作流吗?或者通常用bigdata工作流基准测试一些工作流系统(如oozie)的性能和准确性?谢谢
sz81bmfz1#
可能最著名的mapreduce基准是 Terasort . 它需要大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模mapreduce作业,其中包括mappers和reducer。它包含在mapreduce中,因此您不必单独安装它。第一步是使用 Teragen ,使用mapreduce lib目录中的mapreduce examples jar:
Terasort
Teragen
hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>
第二步是跑步 Terasort 在生成的输入数据上。此步骤所用的时间是基准测试的结果:
hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>
(可选)第三步是使用验证输出结果是否正确 Teravalidate :
Teravalidate
$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>
从一个集群到另一个集群比较这个基准的计时可能非常困难,但是它对于比较同一集群中的不同更改(例如修改配置或添加新节点)非常有用。有一个深入的描述 Terasort 在这个博客里。
1条答案
按热度按时间sz81bmfz1#
可能最著名的mapreduce基准是
Terasort
. 它需要大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模mapreduce作业,其中包括mappers和reducer。它包含在mapreduce中,因此您不必单独安装它。第一步是使用
Teragen
,使用mapreduce lib目录中的mapreduce examples jar:第二步是跑步
Terasort
在生成的输入数据上。此步骤所用的时间是基准测试的结果:(可选)第三步是使用验证输出结果是否正确
Teravalidate
:从一个集群到另一个集群比较这个基准的计时可能非常困难,但是它对于比较同一集群中的不同更改(例如修改配置或添加新节点)非常有用。
有一个深入的描述
Terasort
在这个博客里。