使用hadoop和相关技术索引和搜索大量不同格式的文档

cmssoen2 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(282)

我们的组织正试图围绕大数据hadoop和相关的生态系统开发一些能力。
我们正在考虑做一个概念证明，我们的目标将是存储，索引和搜索大量的pdf文件，电子邮件文档和word文档。首先我想知道这是一个大数据用例吗？
如果是，那么它是hadoop用例吗？如果是这样的话，那么我们应该追求什么样的技术呢？
我们尝试在hdfs中存储pdf，并成功地通过mapper作业并行创建lucene索引，并将索引存储在数据节点本地临时目录中。
但是我们不确定我们是否正确地做了它，如何使它成为一个合适的大数据hadoop用例，以及在技术堆栈上挣扎着做决定是hadoop还是一个无sql数据库或elasticsearch或solr等等。。。
我们的目标是围绕搜索大量不同格式的文档进行概念验证，如果可能的话，我们希望使用hadoop。。。有人能帮我们找到正确的方向吗？
谢谢

hadoop full-text-search bigdata

来源：https://stackoverflow.com/questions/25172844/indexing-and-searching-large-set-of-different-format-of-documents-using-hadoop-a