我使用nutch2.x进行爬网,每批url包含大约3-5百万个。我在分布式模式下运行,使用带有hbase后端的100节点hadoop集群。URL来自成千上万个不同的域。注入运行很快,但生成阶段可能需要2-4小时才能完成。它只使用一个减速机。Map阶段使用多个Map器,具体取决于输入大小。但总是只有一个减速机。我的问题是:是否有可能增加在生成作业中使用的减速器的数量,如果有,需要做什么?我到处寻找答案,但什么也没找到。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!