apachenutch中的优化map reduce操作

fykwrbwg 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(187)

简而言之，1.8：
在爬网开始时，下面详述的map reduce任务似乎运行得更快。然而，在只抓取了40000页之后，map reduce任务似乎要花费更长的时间。查看下面的日志，需要一秒钟才能完成map reduce任务的1%。有没有什么办法让Map缩小任务花这么长时间才能完成？我只是通过 -dir 参数，没有在hadoop中添加配置，也没有使用其他存储库。谢谢。
附加问题：
在进一步调查问题后，仍然无法理解此map reduce任务的作用。纳奇为什么要这样做？

2015-11-19 10:07:16,707 INFO  regex.RegexURLNormalizer (RegexURLNormalizer.java:regexNormalize(174)) - can't find rules for scope 'crawldb', using default
2015-11-19 10:07:17,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 57% reduce 0%
2015-11-19 10:07:22,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:23,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 59% reduce 0%
2015-11-19 10:07:25,664 INFO  mapred.LocalJobRunner (LocalJobRunner.java:statusUpdate(466)) - file:/C:/Users/user/workspace/trunk/crawl/crawldb/current/part-00000/data:100663296+33554432
2015-11-19 10:07:26,172 INFO  mapred.JobClient (JobClient.java:monitorAndPrintJob(1393)) -  map 60% reduce 0%

hadoop nutch

来源：https://stackoverflow.com/questions/33794151/optimize-map-reduce-operations-in-apache-nutch

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

apachenutch中的优化map reduce操作

暂无答案！

相关问题

热门标签

最新问答