如何从nutch爬网数据中提取数据？

ztigrdn8 于 2021-06-09 发布在 Hbase

关注(0)|答案(3)|浏览(348)

ApacheNutch抓取了一些保存在 hbase . 这些数据包含一些PDF文件。现在我要提取这些文件。
我怎么能做到呢？

hbase nutch

来源：https://stackoverflow.com/questions/26099908/how-to-extract-data-from-nutch-crawled-data

3条答案

按热度按时间

beq87vna1#

您当然知道，爬网的数据是以段的形式存储的。实际上，您可以使用readseg命令提取这些数据（例如：

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir

其中my\u dump\u dir是您的目录，它将被创建并包含dump。
然后在mydump目录中，您将找到两个文件：dump（包含已爬网和已解析的数据-非编码数据）和**.dump.crc**（我猜是一些二进制文件）。他们用任何文本编辑器查看转储，并查看结构。如果需要，也可以解析它。

赞(0）回复(0）举报 2021-06-09

yr9zkbsy2#

您可以使用nutch dump命令
语法如下：

bin/nutch dump -outputDir <path_of_output_dir> -segment <segments_dir>

例子：

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments

赞(0）回复(0）举报 2021-06-09

dl5txlt93#

默认情况下，hbase不了解存储的数据类型。我想您可以使用readdb命令(http://wiki.apache.org/nutch/bin/nutch%20readdb )在hbase shell中从网页表中提取数据。

赞(0）回复(0）举报 2021-06-09

我来回答

如何从nutch爬网数据中提取数据？

3条答案

相关问题

热门标签

最新问答