当我跑的时候 nutch 1.10
使用以下命令,假设 TestCrawl2
以前不存在,需要创建,。。。
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
我收到一个索引错误,声称:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
linkdb目录存在,但不包含“current”目录。该目录归root所有,因此不应存在权限问题。由于进程从错误中退出,linkdb目录包含 .locked
还有。。 locked.crc
文件夹。如果我再次运行该命令,这些锁文件会导致它在同一位置退出。删除 TestCrawl2
目录,冲洗,重复。
请注意,nutch和solr安装本身在以前的运行中没有问题 TestCrawl
示例。只是现在我在尝试一个新的我有问题。对解决这个问题有什么建议吗?
1条答案
按热度按时间holgip5t1#
好吧,好像我遇到了这个问题的一个版本:
https://issues.apache.org/jira/browse/nutch-2041
这是由于爬网脚本不知道要忽略我的nutch-site.xml文件的外部链接所做的更改。
我正在尝试爬网几个网站,并希望通过忽略外部链接和单独使用regex-urlfilter.txt(仅使用+)来简化我的生活
现在看来,我必须将ignore\u external\u links改回false,并为每个url添加regex过滤器。希望我能得到一个坚果1.11版本很快。看起来这里已经修好了。