使用apache nutch上的apache tika插件解析微数据

3z6pesqy 于 2021-06-09 发布在 Hbase

关注(0)|答案(1)|浏览(478)

我的目标是在URL上爬行，提取微数据并保存到solr
我使用这个指南来设置nutch、hbase和solr
我用nutch在url和hbase上爬行，我用tikapluggin为nutch解析页面，但它只得到元数据。
我错过什么了吗？请指导我或建议其他选择

hbase solr nutch apache-tika microdata

来源：https://stackoverflow.com/questions/33651824/parse-microdata-using-apache-tika-plugin-on-apache-nutch

1条答案

按热度按时间

xqkwcwgp1#

您需要实现自己的parsefilter并在那里实现提取逻辑。您将获得由tika解析器生成的documentfragment，并可以使用例如xpath来获取微数据。
请注意，tika生成的dom经过了严格的规范化/修改，因此xpath表达式可能不匹配。或许更好的办法是依赖旧的html解析器。
一种通用的方法是使用apacheany23，例如在这个storm crawler模块中。
顺便说一句，有一个开放的jira微数据处理器在蒂卡尚未提交。
hth公司

赞(0）回复(0）举报 2021-06-09

我来回答

使用apache nutch上的apache tika插件解析微数据

1条答案

相关问题

热门标签

最新问答