nutch+solr：如何为嵌入html的pdf编制索引？

p8ekf7hl 于 2021-10-10 发布在 Java

关注(0)|答案(1)|浏览(438)

我正在使用nutch+solr为我的网站建立索引，以获得一个内部搜索栏。该网站有许多嵌入PDF的html页面，我希望PDF中的文本显示在搜索中。在html中为文本编制索引效果很好，我可以单独为pdf编制索引，但我想要一个单独的solr文档，其中包含html中的文本及其嵌入的pdf。有办法做到这一点吗？
以下是PDF的嵌入方式：

<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>

我想知道这个解决方案是否与tika的embeddeddocumentextractor有关。然而，我不知道如何在nutch或solr中更改tika的配置。

solr Html nutch pdf apache-tika

来源：https://stackoverflow.com/questions/68024834/nutchsolr-how-do-you-index-a-pdf-embedded-in-html

1条答案

按热度按时间

k4ymrczo1#

tika将pdf文件视为链接，embeddeddocumentextractor用于通过数据URI排列的内容。嵌入pdf需要修改tika的htmlhandler或nutch的parse tika插件。请注意，nutch尚未处理中的链接 <object> 要素，将在nutch-2880中说明。

赞(0）回复(0）举报 2021-10-10

我来回答

nutch+solr：如何为嵌入html的pdf编制索引？

1条答案

相关问题

热门标签

最新问答