nutch爬行：在生成过程中，是否可以使用多个减速机？

cygmwpex 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(286)

我使用nutch2.x进行爬网，每批url包含大约3-5百万个。
我在分布式模式下运行，使用带有hbase后端的100节点hadoop集群。URL来自成千上万个不同的域。
注入运行很快，但生成阶段可能需要2-4小时才能完成。它只使用一个减速机。Map阶段使用多个Map器，具体取决于输入大小。但总是只有一个减速机。
我的问题是：是否有可能增加在生成作业中使用的减速器的数量，如果有，需要做什么？
我到处寻找答案，但什么也没找到。

Java hadoop mapreduce nutch web-crawler

来源：https://stackoverflow.com/questions/45425675/nutch-crawling-during-generate-is-it-possible-to-use-more-than-a-single-reduce

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

nutch爬行：在生成过程中，是否可以使用多个减速机？

暂无答案！

相关问题

热门标签

最新问答