我有大约200万个文本可搜索的pdf文件。我需要能够搜索用户的查询,并返回一个代码段和文件名。前端是node.js react应用程序。
现在我可以使用pdfjs dist(https://github.com/mozilla/pdfjs-dist)将pdf内容读入mysql数据库。然后使用全文匹配。。。对查询进行文本搜索。然而,这是尴尬的和200万PDF是真的很慢。而且,新文件是定期添加的,因此将PDF读入sql也是相当耗费资源的。
有更好的解决办法吗?elasticsearch是一个很好的解决方案吗?
该项目托管在googlecloud(appengine和cloudsql)上。有没有谷歌工具可以做到这一点?
1条答案
按热度按时间brtdzjyr1#
是的,我想说elasticsearch是一个伟大的工具索引pdf和搜索它以后。
有一个ingest attachment processor插件,允许从常用格式(pdf、txt、doc等)中提取数据,并将其索引到elasticsearch中,以便以后可以对其进行搜索。
googlecloud有elasticsearch集群插件,这将使集成更容易。谷歌云中还有一个elasticsearch服务,它拥有大量的支持。