我的目标是在URL上爬行,提取微数据并保存到solr我使用这个指南来设置nutch、hbase和solr我用nutch在url和hbase上爬行,我用tikapluggin为nutch解析页面,但它只得到元数据。我错过什么了吗?请指导我或建议其他选择
xqkwcwgp1#
您需要实现自己的parsefilter并在那里实现提取逻辑。您将获得由tika解析器生成的documentfragment,并可以使用例如xpath来获取微数据。请注意,tika生成的dom经过了严格的规范化/修改,因此xpath表达式可能不匹配。或许更好的办法是依赖旧的html解析器。一种通用的方法是使用apacheany23,例如在这个storm crawler模块中。顺便说一句,有一个开放的jira微数据处理器在蒂卡尚未提交。hth公司
1条答案
按热度按时间xqkwcwgp1#
您需要实现自己的parsefilter并在那里实现提取逻辑。您将获得由tika解析器生成的documentfragment,并可以使用例如xpath来获取微数据。
请注意,tika生成的dom经过了严格的规范化/修改,因此xpath表达式可能不匹配。或许更好的办法是依赖旧的html解析器。
一种通用的方法是使用apacheany23,例如在这个storm crawler模块中。
顺便说一句,有一个开放的jira微数据处理器在蒂卡尚未提交。
hth公司