以纯文本格式从nutch获取数据

mwkjh3gx  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(461)

我正在使用apachenutch抓取网站。当我使用 readseg 命令读取段中的内容,我得到如下格式:

有没有办法以纯文本格式获取web数据?当我在解析文本时使用readseg命令时,我是这样得到的

wtlkbnrh

wtlkbnrh1#

这个 readseg 命令转储(默认情况下)从URL获取的原始内容。这是传输的整个html内容。如果要获取文本内容,需要等到内容被解析之后。这意味着您需要执行整个爬网周期(或 ./bin/nutch parse 命令)。
检查屏幕上的不同选项 readseg 命令(https://wiki.apache.org/nutch/bin/nutch_readseg),如果您已经在执行解析步骤,那么您可能只关心解析的内容,这样就可以避免打印其他内容。

相关问题