如何从nutch爬网数据中提取数据?

ztigrdn8  于 2021-06-09  发布在  Hbase
关注(0)|答案(3)|浏览(347)

ApacheNutch抓取了一些保存在 hbase . 这些数据包含一些PDF文件。现在我要提取这些文件。
我怎么能做到呢?

beq87vna

beq87vna1#

您当然知道,爬网的数据是以段的形式存储的。实际上,您可以使用readseg命令提取这些数据(例如:

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir

其中my\u dump\u dir是您的目录,它将被创建并包含dump。
然后在mydump目录中,您将找到两个文件:dump(包含已爬网和已解析的数据-非编码数据)和**.dump.crc**(我猜是一些二进制文件)。他们用任何文本编辑器查看转储,并查看结构。如果需要,也可以解析它。

yr9zkbsy

yr9zkbsy2#

您可以使用nutch dump命令
语法如下:

bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir>

例子:

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments
dl5txlt9

dl5txlt93#

默认情况下,hbase不了解存储的数据类型。我想您可以使用readdb命令(http://wiki.apache.org/nutch/bin/nutch%20readdb )在hbase shell中从网页表中提取数据。

相关问题