我对这里解释的mapreduce示例有一个问题:
http://forge.fiware.org/plugins/mediawiki/wiki/fiware/index.php/bigdata_analysis_-_quick_start_for_programmers
这确实是hadoopmapreduce最常见的例子,wordcount。
在cosmos的全局示例中,我可以毫无问题地执行它,但是即使我给它一个小的输入(一个有2行或3行的文件),执行它也需要很多时间(多多少少半分钟)。我想这是它的正常行为,但我的问题是:¿为什么即使是很小的投入也要花这么长时间?
我想这种方法可以提高它的有效性,在更大的数据集中,最小的延迟可以忽略不计。
1条答案
按热度按时间ldxq2e6h1#
首先,您必须考虑到fiware lab的当前cosmos示例是hadoop的共享示例,因此许多其他用户可能同时执行mapreduce作业,从而导致对计算资源的“竞争”。
也就是说,mapreduce是为大型数据集和larga数据文件而设计的。它增加了很多开销,这在处理几行代码时是不必要的(因为对于几行代码分析,您不需要mapreduce!)但是当这些线是不稳定的,甚至是数百万的时候,这会有很大的帮助。当然,在这些情况下,处理时间与数据大小成比例,但不是1:1的比例。