nutch2.2.1

uxhixvfz  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(351)

我已经参考了这个教程(http://wiki.apache.org/nutch/nutch2tutorial)使用hbase设置nutch 2.2.1。我已经完成了教程中给出的设置,但是如何爬网并将数据存储到hbase表中还没有明确提到。
你能让我参考一些相关的链接/书籍吗?

vddsk6oq

vddsk6oq1#

我遵循这个教程,运行nutch索引到elasticsearch,没有问题。本文结尾的六个命令为您提供了相关信息。

bin/nutch inject <seed-url-dir>
bin/nutch generate -topN <n>
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
bin/nutch elasticindex <clustername> -all

我在nutch\u home中创建了url目录,在那里我放置了seed.txt文件。在这个文件是网址地址爬行。接下来,我将五个命令放到脚本文件中,并在不定式循环中运行它。如果您只学习教程,当然不必使用最后一个命令bin/nutch elasticindex。topn数字我坐到了50,因为数字越高,有时会卡住。但这只能是我的情况。

2hh7jdfx

2hh7jdfx2#

对我最有帮助的是:
http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html
Map到hbase在nutch\u home/conf/gora-hbase-mapping.xml中定义。因此,如果所有配置都正确,爬网脚本应该为您存储它。
我也有相同的配置,但要让它工作有很多问题,以下是一些提示:
技巧1:小心表名
我还配置这些属性:

<property>
  <name>storage.schema.webpage</name>
  <value>webpage</value>
</property>

<property>
  <name>storage.crawl.id</name>
  <value>babu</value>
</property>

当您在脚本write simple'babu'->$crawl\u id中给定参数-crawlid时,此配置将把数据爬网到hbase中的babu\u网页表中。

$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50

技巧2:如果你有不好的表名nutch仍然写在控制台上成功。
技巧3:如何简单地查看hbase中是否有已爬网的内容:
转到./bin/hbase shell

list
scan 'babu_webpage'

相关问题