我正试图在我的ubuntu桌面上安装并运行ApacheNutch2.2.1。作为一个新手,我发现官方网站提供的教程的某些部分有点混乱。
如果我在自己的桌面上运行它,转到
$NUTCH_HOME/runtime/local
运行bin/nutch命令?
我应该把名为url的文件放在哪里(其中有种子列表(seed.txt)吗
$NUTCH_HOME/runtime/local
如果我在正确的目录中,我在执行命令时遇到了这个问题
bin/nutch crawl urls -dir crawl -depth 1
injectorjob:使用org.apache.gora.memory.store.memstore类作为gora存储类。injectorjob:筛选器拒绝的URL总数:0 injectorjob:规范化和筛选后注入的URL总数:线程“main”java.lang中出现0异常。runtimeexception:作业失败:name=generate:null,jobid=job\u local1613558008\u 0002,位于org.apache.nutch.util.nutchjob.waitforcompletion(nutchjob)。java:54)在org.apache.nutch.crawl.generatorjob.run(generatorjob。java:199)在org.apache.nutch.crawl.crawler.runtool(crawler。java:68)在org.apache.nutch.crawl.crawler.run(crawler。java:152)在org.apache.nutch.crawl.crawler.run(crawler。java:250)在org.apache.hadoop.util.toolrunner.run(toolrunner。java:65)在org.apache.nutch.crawl.crawler.main(crawler。java:257)
我正在学习教程1http://wiki.apache.org/nutch/nutchtutorial 直到3.3版本,还没有配置gora hbase等。似乎出现这个问题是因为注入器没有获得url。有人知道怎么解决这个问题吗?谢谢!
2条答案
按热度按时间kxxlusnw1#
你应该去
$NUTCH_HOME/runtime/deploy
运行命令yxyvkwin2#
如果您想与gora和hbase集成,请在nutchsite.xml中提及这一点