如何在分布式模式下运行apachenutch

cbeh67ev 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(411)

我使用的是ApacheNutch2.3。我有一个由4个hadoop（1.2.1）节点组成的小集群。我正在运行爬虫的一个示例。它每天爬行大约3万到5万页。我必须每天抓取更多的网页（假定值约为100万）。我试过不同的问题，从常见问题解答的坚果。但爬网的文件无法增加。我认为我应该在完全分布式模式下运行nutch（我期望nutch的完全分布式模式运行多个示例）。
我的问题有什么解决办法？

hadoop nutch web-crawler

来源：https://stackoverflow.com/questions/32753538/how-to-run-apache-nutch-in-distributed-mode