我在做一个项目 AWS Lex chatbot
以及 ElasticSearch
. 我的目标是解析一个查询,以便搜索单个pdf文档并提取一些相关信息。
我觉得这是可能的 ElasticSearch
,尽管我的研究遇到了障碍。我理解 ElasticSearch
具有索引文档的功能,但这似乎仅限于索引实际文件以搜索与查询匹配的文件。我希望在pdf文档中找到实际内容,并尝试根据查询提取一些内容。这可能吗?
我在做一个项目 AWS Lex chatbot
以及 ElasticSearch
. 我的目标是解析一个查询,以便搜索单个pdf文档并提取一些相关信息。
我觉得这是可能的 ElasticSearch
,尽管我的研究遇到了障碍。我理解 ElasticSearch
具有索引文档的功能,但这似乎仅限于索引实际文件以搜索与查询匹配的文件。我希望在pdf文档中找到实际内容,并尝试根据查询提取一些内容。这可能吗?
1条答案
按热度按时间zte4gxcn1#
elasticsearch无法直接索引PDF。您可以提取pdf的文本,对其进行索引,然后像往常一样进行查询。ApacheTika“从上千种不同的文件类型(如ppt、xls和pdf)中检测并提取元数据和文本。”
您可以将tika作为docker容器运行:docker tikaserver
要索引pdf,请将数据发送到tika(例如,作为docker容器运行,可通过http://tika:9998),获取文本并为其编制索引: