我试图爬网整个网站和预期的大量网址。因此,我将apachenutch爬网中的轮数设置为5,然后运行爬网。爬网现在已进入第三轮,仍然可以很好地获取URL,但在日志文件中我看到:
正在获取已获取的url名称(队列爬网延迟=5000ms)50/50 spinwaiting/active,949页,2个错误,0.2 0页/秒,26 17 kb/秒,1个队列中有2500个url
我怎样才能找出这两个错误是什么?我看到这个错误下面的数百个网址被抓取。我使用的是apachenutch2.3.1和hbase 0.94。谢谢您!
1条答案
按热度按时间bq3bfh9z1#
检查日志文件中的错误,有些错误是由于internet连接速度慢或超时(最大值)问题造成的。查看日志以了解详细信息