nutch+solr:如何为嵌入html的pdf编制索引?

p8ekf7hl  于 2021-10-10  发布在  Java
关注(0)|答案(1)|浏览(352)

我正在使用nutch+solr为我的网站建立索引,以获得一个内部搜索栏。该网站有许多嵌入PDF的html页面,我希望PDF中的文本显示在搜索中。在html中为文本编制索引效果很好,我可以单独为pdf编制索引,但我想要一个单独的solr文档,其中包含html中的文本及其嵌入的pdf。有办法做到这一点吗?
以下是PDF的嵌入方式:

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道这个解决方案是否与tika的embeddeddocumentextractor有关。然而,我不知道如何在nutch或solr中更改tika的配置。

k4ymrczo

k4ymrczo1#

tika将pdf文件视为链接,embeddeddocumentextractor用于通过数据URI排列的内容。嵌入pdf需要修改tika的htmlhandler或nutch的parse tika插件。请注意,nutch尚未处理中的链接 <object> 要素,将在nutch-2880中说明。

相关问题