nutch2.2.1

uxhixvfz 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(351)

我已经参考了这个教程(http://wiki.apache.org/nutch/nutch2tutorial)使用hbase设置nutch 2.2.1。我已经完成了教程中给出的设置，但是如何爬网并将数据存储到hbase表中还没有明确提到。
你能让我参考一些相关的链接/书籍吗？

hadoop hbase apache nutch web-crawler

来源：https://stackoverflow.com/questions/21135495/nutch-2-2-1-setup-with-hbase-on-hadoop-cluster

2条答案

按热度按时间

vddsk6oq1#

我遵循这个教程，运行nutch索引到elasticsearch，没有问题。本文结尾的六个命令为您提供了相关信息。

bin/nutch inject <seed-url-dir>
bin/nutch generate -topN <n>
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
bin/nutch elasticindex <clustername> -all

我在nutch\u home中创建了url目录，在那里我放置了seed.txt文件。在这个文件是网址地址爬行。接下来，我将五个命令放到脚本文件中，并在不定式循环中运行它。如果您只学习教程，当然不必使用最后一个命令bin/nutch elasticindex。topn数字我坐到了50，因为数字越高，有时会卡住。但这只能是我的情况。

赞(0）回复(0）举报 2021-06-03

2hh7jdfx2#

对我最有帮助的是：
http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html
Map到hbase在nutch\u home/conf/gora-hbase-mapping.xml中定义。因此，如果所有配置都正确，爬网脚本应该为您存储它。
我也有相同的配置，但要让它工作有很多问题，以下是一些提示：
技巧1：小心表名
我还配置这些属性：

<property>
  <name>storage.schema.webpage</name>
  <value>webpage</value>
</property>

<property>
  <name>storage.crawl.id</name>
  <value>babu</value>
</property>

当您在脚本write simple'babu'->$crawl\u id中给定参数-crawlid时，此配置将把数据爬网到hbase中的babu\u网页表中。

$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50

技巧2：如果你有不好的表名nutch仍然写在控制台上成功。
技巧3：如何简单地查看hbase中是否有已爬网的内容：
转到./bin/hbase shell

list
scan 'babu_webpage'

赞(0）回复(0）举报 2021-06-03

我来回答

nutch2.2.1

2条答案

相关问题

热门标签

最新问答