设置和运行apache nutch 2.2.1

e0uiprwp 于 2021-06-09 发布在 Hbase

关注(0)|答案(2)|浏览(482)

我正试图在我的ubuntu桌面上安装并运行ApacheNutch2.2.1。作为一个新手，我发现官方网站提供的教程的某些部分有点混乱。
如果我在自己的桌面上运行它，转到

$NUTCH_HOME/runtime/local

运行bin/nutch命令？
我应该把名为url的文件放在哪里(其中有种子列表（seed.txt）吗

$NUTCH_HOME/runtime/local

如果我在正确的目录中，我在执行命令时遇到了这个问题

bin/nutch crawl urls -dir crawl -depth 1

injectorjob：使用org.apache.gora.memory.store.memstore类作为gora存储类。injectorjob:筛选器拒绝的URL总数：0 injectorjob:规范化和筛选后注入的URL总数：线程“main”java.lang中出现0异常。runtimeexception:作业失败：name=generate:null，jobid=job\u local1613558008\u 0002，位于org.apache.nutch.util.nutchjob.waitforcompletion（nutchjob）。java:54)在org.apache.nutch.crawl.generatorjob.run（generatorjob。java:199)在org.apache.nutch.crawl.crawler.runtool（crawler。java:68)在org.apache.nutch.crawl.crawler.run（crawler。java:152)在org.apache.nutch.crawl.crawler.run（crawler。java:250)在org.apache.hadoop.util.toolrunner.run（toolrunner。java:65)在org.apache.nutch.crawl.crawler.main（crawler。java:257)
我正在学习教程1http://wiki.apache.org/nutch/nutchtutorial 直到3.3版本，还没有配置gora hbase等。似乎出现这个问题是因为注入器没有获得url。有人知道怎么解决这个问题吗？谢谢！

hbase apache nutch gora

来源：https://stackoverflow.com/questions/27374344/setting-up-and-running-apache-nutch-2-2-1

2条答案

按热度按时间

kxxlusnw1#

你应该去 $NUTCH_HOME/runtime/deploy 运行命令

赞(0）回复(0）举报 2021-06-09

yxyvkwin2#

如果您想与gora和hbase集成，请在nutchsite.xml中提及这一点

<property>
        <name>storage.data.store.class</name>
        <value>org.apache.gora.hbase.store.HBaseStore</value>
        <description>Default class for storing data</description>
    </property>

赞(0）回复(0）举报 2021-06-09

我来回答

设置和运行apache nutch 2.2.1

2条答案

相关问题

热门标签

最新问答