hadoop mapreduce mapper任务从hdfs或s3读取输入文件所花费的时间

qcuzuvrc 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(340)

我正在运行hadoopmapreduce作业，从hdfs或amazons3获取输入文件。我想知道是否有可能知道一个Map器任务需要多长时间才能将文件从hdfs或s3读取到Map器。我只想知道读取数据的时间，不包括那些数据的Map器处理时间。我想要的结果是某个mapper任务的mb/秒，这表明mapper可以以多快的速度读取hdfs或s3。有点像i/o性能。
谢谢。

hadoop mapreduce Mapper

来源：https://stackoverflow.com/questions/20112277/time-spent-by-a-hadoop-mapreduce-mapper-task-to-read-input-files-from-hdfs-or-s3

1条答案

按热度按时间

o2g1uqev1#

也许你可以用一个单位Map器把减速机的数目设为零。那么在你的模拟中唯一要做的就是i/o，没有排序和洗牌。或者，如果您特别想专注于阅读，那么您可以用一个不写任何输出的函数来替换单元Map器。下一步我会 mapred.jvm.reuse=-1 ，以消除jvm开销。它并不完美，但它可能是最简单的方法，有一个快速的想法。如果你想精确地做到这一点，我会考虑实现你自己的hadoop计数器，但目前我没有这方面的经验。

赞(0）回复(0）举报 2021-06-04

我来回答

hadoop mapreduce mapper任务从hdfs或s3读取输入文件所花费的时间

1条答案

相关问题

热门标签

最新问答