我正在使用nutch+solr为我的网站建立索引,以获得一个内部搜索栏。该网站有许多嵌入PDF的html页面,我希望PDF中的文本显示在搜索中。在html中为文本编制索引效果很好,我可以单独为pdf编制索引,但我想要一个单独的solr文档,其中包含html中的文本及其嵌入的pdf。有办法做到这一点吗?
以下是PDF的嵌入方式:
<object data="path/to/document.pdf#view=FitH" type="application/pdf" width="100%" height="700">
</object>
我想知道这个解决方案是否与tika的embeddeddocumentextractor有关。然而,我不知道如何在nutch或solr中更改tika的配置。
1条答案
按热度按时间k4ymrczo1#
tika将pdf文件视为链接,embeddeddocumentextractor用于通过数据URI排列的内容。嵌入pdf需要修改tika的htmlhandler或nutch的parse tika插件。请注意,nutch尚未处理中的链接
<object>
要素,将在nutch-2880中说明。