我尝试在服务器上部署hadoop,然后使用本教程构建nutch1.5.1在hadoop上运行nutch。我在日志文件中没有收到任何错误消息,但是crawldb无法更新任何url,因此crawldb总是有init url。
在我的development env中,我运行org.apache.nutch.crawl.crawl url-dir crawl-depth 3,运行正常。
在服务器端,我运行如下脚本:
./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我在hdfs中复制的url文件。
我需要配置什么吗?
暂无答案!
目前还没有任何答案,快来回答吧!