nutch1.10输入路径不存在/linkdb/current

9w11ddsr  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(390)

当我跑的时候 nutch 1.10 使用以下命令,假设 TestCrawl2 以前不存在,需要创建,。。。

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到一个索引错误,声称:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在,但不包含“current”目录。该目录归root所有,因此不应存在权限问题。由于进程从错误中退出,linkdb目录包含 .locked 还有。。 locked.crc 文件夹。如果我再次运行该命令,这些锁文件会导致它在同一位置退出。删除 TestCrawl2 目录,冲洗,重复。
请注意,nutch和solr安装本身在以前的运行中没有问题 TestCrawl 示例。只是现在我在尝试一个新的我有问题。对解决这个问题有什么建议吗?

holgip5t

holgip5t1#

好吧,好像我遇到了这个问题的一个版本:
https://issues.apache.org/jira/browse/nutch-2041
这是由于爬网脚本不知道要忽略我的nutch-site.xml文件的外部链接所做的更改。
我正在尝试爬网几个网站,并希望通过忽略外部链接和单独使用regex-urlfilter.txt(仅使用+)来简化我的生活
现在看来,我必须将ignore\u external\u links改回false,并为每个url添加regex过滤器。希望我能得到一个坚果1.11版本很快。看起来这里已经修好了。

相关问题