我使用3节点hadoop集群运行nutch1.7。我在seeds.txt文件中输入了3000多个url。这项工作以惊人的速度完成,取得了成功。当我在solr中检查结果时,许多url都不返回任何内容。大多数有内容的网站只值一页。我只重试了一个url,以前没有结果。现在它有94页的内容。所以这个问题肯定不是因为机器人拒绝。每次我重新运行整个列表时,它都会运行一段时间并获得更多的页面内容,但始终无法完成列表。是什么原因导致nutch那样退出?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!