我目前正在使用nutch2.2.1和hbase 0.90.4。我预计约30万个网址从约10个网址在种子。我已经产生了这么多,而使用坚果1.6。因为我想处理数据,所以我更喜欢nutch2.2.1+hbase路线。但我犯了各种奇怪的错误,爬行似乎没有进展。
各种错误,如:
zookeeper.clientcnxn-服务器的会话为空,出现意外错误,正在关闭套接字连接并尝试重新连接。-我经常这样
bin/爬网:第164行:killed-我从fetch步骤中得到这个错误,爬网突然被杀死。
rss分析错误
我正在使用一个一体化的爬网命令- bin/crawl urls 1 http://localhost:8983/solr/ 10
```
请告诉我哪里出错了。我已经安装了nutch 2.2.1和hbase(独立)安装根据快速入门指南建议从nutch网站。我不确定以下hbase 0.90.4独立设置从快速入门指南链接是否足以实现300k爬网网址。
编辑#1:rss解析错误-日志信息
error tika.tikaparser-错误分析http://www.###.####.###/#####/.xml org.apache.tika.exception.tikaexception:rss解析错误
暂无答案!
目前还没有任何答案,快来回答吧!