我们正在使用Nutch1.6来爬网。根据nutch配置,应该提供seedlist和域url过滤器,以便跨指定的域进行遍历。但是,如果新发现的url的扩展名是co.uk(仅适用于此扩展名),我们希望获取新发现的url。我们可以通过将新发现的url的域添加到文件(或数据库,无论什么)来管理它。停止爬虫程序,更新域url筛选器和种子列表,然后重新启动它。但我们如何动态地做到这一点,而不停止爬虫程序?提前谢谢。p、 s:co.uk域扩展只是一个例子,我们还可以添加多个扩展来允许。
68de4m5k1#
知道了。您可以在domain-urlfilter.txt中添加后缀,如“gov.uk”,作为第186-189行的domainurlfilter源代码:
if (domainSet.contains(suffix) || domainSet.contains(domain) || domainSet.contains(host)) { return url; }
它检查后缀、域和主机。此外,您可以在hbase表中保留域url,并通过自己的过滤器插件(而不是使用domainurlfilter)管理它们。
1条答案
按热度按时间68de4m5k1#
知道了。
您可以在domain-urlfilter.txt中添加后缀,如“gov.uk”,作为第186-189行的domainurlfilter源代码:
它检查后缀、域和主机。
此外,您可以在hbase表中保留域url,并通过自己的过滤器插件(而不是使用domainurlfilter)管理它们。