我有一个基于hadoop的集群。我成功地使用了nutch1.15,并抓取了一些url。我已经安装了solr 7.3.1,并且我喜欢使用cloud one,因此当我使用以下命令运行solr时:
./solr-7.3.1/bin/solr start -c
我还在nutch-site.xml中设置了一些solr变量:
<property>
<name>solr.server.type</name>
<value>cloud</value>
</property>
<property>
<name>solr.server.url</name>
<value>http://localhost:8983/solr/nutch_collection/</value>
</property>
<property>
<name>solr.zookeeper.url</name>
<value>http://localhost:9983/</value>
</property>
对于solr的索引:
bash ./run_nutch.sh solrindex -Dsolr.server.url=http://localhost:8983/solr/nutch_collection/ crawl/crawldb -linkdb crawl/segments/*
没有错误和作业完成,但我的收藏中没有文档。。。
我错过了什么?谢谢
1条答案
按热度按时间7rfyedvj1#
solr.server.url现在从Nutch1.15版本中删除。现在必须配置一个xml文件(conf/index writers.xml)
index-writers.xml中的默认值设置为
http://localhost:8983/solr/nutch/
. 所以您要么要更改xml文件中的值,要么创建名为nutch
而不是nutch_collection
测试一下。https://apache.org/dist/nutch/1.15/changes.txt