apache nutch 2.3.1获取错误

ltqd579y 于 2021-06-08 发布在 Hbase

关注(0)|答案(1)|浏览(297)

我试图爬网整个网站和预期的大量网址。因此，我将apachenutch爬网中的轮数设置为5，然后运行爬网。爬网现在已进入第三轮，仍然可以很好地获取URL，但在日志文件中我看到：
正在获取已获取的url名称（队列爬网延迟=5000ms）50/50 spinwaiting/active，949页，2个错误，0.2 0页/秒，26 17 kb/秒，1个队列中有2500个url
我怎样才能找出这两个错误是什么？我看到这个错误下面的数百个网址被抓取。我使用的是apachenutch2.3.1和hbase 0.94。谢谢您！

Java hbase apache nutch

来源：https://stackoverflow.com/questions/44980454/apache-nutch-2-3-1-fetching-error