我使用的是nutch2.3,我正在尝试获取seed.txt文件中存在的一些url的html内容,我将这些内容传递给nutch到hbase中。所以问题如下---第一次爬网:一切正常,我把数据放到hbase中,url作为行键。第二次运行:当我用不同的url第二次运行爬网时,我看到有太多的url用于正在运行的抓取作业,而我的种子文件中只有一个url。所以我的问题是如何确保nutch只爬行并获取seed.txt中url的html内容,而不获取seed.txt中url html内容中的out链接
kcugc4gi1#
您可以将crawl命令的迭代保持为“1”,然后nutch将只对seed.txt文件中存在的url进行爬网。例如。
bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1
此外,还可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。
# accept anything else +http://doamin.com
shstlldc2#
我认为您只想获取种子文件中给定的域。为此,更新nutch-site.xml如下
<property> <name>db.ignore.external.links</name> <value>true</value> </property>
2条答案
按热度按时间kcugc4gi1#
您可以将crawl命令的迭代保持为“1”,然后nutch将只对seed.txt文件中存在的url进行爬网。
例如。
此外,还可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。
shstlldc2#
我认为您只想获取种子文件中给定的域。为此,更新nutch-site.xml如下