ApacheNutch抓取了一些保存在 hbase . 这些数据包含一些PDF文件。现在我要提取这些文件。我怎么能做到呢?
hbase
beq87vna1#
您当然知道,爬网的数据是以段的形式存储的。实际上,您可以使用readseg命令提取这些数据(例如:
bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir
其中my\u dump\u dir是您的目录,它将被创建并包含dump。然后在mydump目录中,您将找到两个文件:dump(包含已爬网和已解析的数据-非编码数据)和**.dump.crc**(我猜是一些二进制文件)。他们用任何文本编辑器查看转储,并查看结构。如果需要,也可以解析它。
yr9zkbsy2#
您可以使用nutch dump命令语法如下:
bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir>
例子:
bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments
dl5txlt93#
默认情况下,hbase不了解存储的数据类型。我想您可以使用readdb命令(http://wiki.apache.org/nutch/bin/nutch%20readdb )在hbase shell中从网页表中提取数据。
3条答案
按热度按时间beq87vna1#
您当然知道,爬网的数据是以段的形式存储的。实际上,您可以使用readseg命令提取这些数据(例如:
其中my\u dump\u dir是您的目录,它将被创建并包含dump。
然后在mydump目录中,您将找到两个文件:dump(包含已爬网和已解析的数据-非编码数据)和**.dump.crc**(我猜是一些二进制文件)。他们用任何文本编辑器查看转储,并查看结构。如果需要,也可以解析它。
yr9zkbsy2#
您可以使用nutch dump命令
语法如下:
例子:
dl5txlt93#
默认情况下,hbase不了解存储的数据类型。我想您可以使用readdb命令(http://wiki.apache.org/nutch/bin/nutch%20readdb )在hbase shell中从网页表中提取数据。