我已经参考了这个教程(http://wiki.apache.org/nutch/nutch2tutorial)使用hbase设置nutch 2.2.1。我已经完成了教程中给出的设置,但是如何爬网并将数据存储到hbase表中还没有明确提到。你能让我参考一些相关的链接/书籍吗?
vddsk6oq1#
我遵循这个教程,运行nutch索引到elasticsearch,没有问题。本文结尾的六个命令为您提供了相关信息。
bin/nutch inject <seed-url-dir> bin/nutch generate -topN <n> bin/nutch fetch -all bin/nutch parse -all bin/nutch updatedb bin/nutch elasticindex <clustername> -all
我在nutch\u home中创建了url目录,在那里我放置了seed.txt文件。在这个文件是网址地址爬行。接下来,我将五个命令放到脚本文件中,并在不定式循环中运行它。如果您只学习教程,当然不必使用最后一个命令bin/nutch elasticindex。topn数字我坐到了50,因为数字越高,有时会卡住。但这只能是我的情况。
2hh7jdfx2#
对我最有帮助的是:http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.htmlMap到hbase在nutch\u home/conf/gora-hbase-mapping.xml中定义。因此,如果所有配置都正确,爬网脚本应该为您存储它。我也有相同的配置,但要让它工作有很多问题,以下是一些提示:技巧1:小心表名我还配置这些属性:
<property> <name>storage.schema.webpage</name> <value>webpage</value> </property> <property> <name>storage.crawl.id</name> <value>babu</value> </property>
当您在脚本write simple'babu'->$crawl\u id中给定参数-crawlid时,此配置将把数据爬网到hbase中的babu\u网页表中。
$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50
技巧2:如果你有不好的表名nutch仍然写在控制台上成功。技巧3:如何简单地查看hbase中是否有已爬网的内容:转到./bin/hbase shell
list scan 'babu_webpage'
2条答案
按热度按时间vddsk6oq1#
我遵循这个教程,运行nutch索引到elasticsearch,没有问题。本文结尾的六个命令为您提供了相关信息。
我在nutch\u home中创建了url目录,在那里我放置了seed.txt文件。在这个文件是网址地址爬行。接下来,我将五个命令放到脚本文件中,并在不定式循环中运行它。如果您只学习教程,当然不必使用最后一个命令bin/nutch elasticindex。topn数字我坐到了50,因为数字越高,有时会卡住。但这只能是我的情况。
2hh7jdfx2#
对我最有帮助的是:
http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html
Map到hbase在nutch\u home/conf/gora-hbase-mapping.xml中定义。因此,如果所有配置都正确,爬网脚本应该为您存储它。
我也有相同的配置,但要让它工作有很多问题,以下是一些提示:
技巧1:小心表名
我还配置这些属性:
当您在脚本write simple'babu'->$crawl\u id中给定参数-crawlid时,此配置将把数据爬网到hbase中的babu\u网页表中。
技巧2:如果你有不好的表名nutch仍然写在控制台上成功。
技巧3:如何简单地查看hbase中是否有已爬网的内容:
转到./bin/hbase shell