apachenutch2.x中的电源故障处理

5cnsuln7 于 2021-06-01 发布在 Hadoop

关注(0)|答案(0)|浏览(169)

我已经设置了一个集群从www上抓取一些网站。我正在使用apachenutch2.3.1和hadoop和hbase。我也有群集备份。但当电源故障持续很长时间后，即使这个备份也会完成，整个集群也会在短时间内停机。当电源问题（不知何故）解决后，我想从上次的位置恢复工作。例如，如果我的爬虫正在爬行1000个URL，在50%之后，集群就会关闭。我希望nutch应该只获取剩余的50%，而不应该获取那些已经获取的文档。

hadoop apache nutch web-crawler

来源：https://stackoverflow.com/questions/47631188/power-failure-handling-in-apache-nutch-2-x

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

apachenutch2.x中的电源故障处理

暂无答案！

相关问题

热门标签

最新问答