我已经设置了一个集群从www上抓取一些网站。我正在使用apachenutch2.3.1和hadoop和hbase。我也有群集备份。但当电源故障持续很长时间后,即使这个备份也会完成,整个集群也会在短时间内停机。当电源问题(不知何故)解决后,我想从上次的位置恢复工作。例如,如果我的爬虫正在爬行1000个URL,在50%之后,集群就会关闭。我希望nutch应该只获取剩余的50%,而不应该获取那些已经获取的文档。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!