使用hadoop和相关技术索引和搜索大量不同格式的文档

cmssoen2  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(282)

我们的组织正试图围绕大数据hadoop和相关的生态系统开发一些能力。
我们正在考虑做一个概念证明,我们的目标将是存储,索引和搜索大量的pdf文件,电子邮件文档和word文档。首先我想知道这是一个大数据用例吗?
如果是,那么它是hadoop用例吗?如果是这样的话,那么我们应该追求什么样的技术呢?
我们尝试在hdfs中存储pdf,并成功地通过mapper作业并行创建lucene索引,并将索引存储在数据节点本地临时目录中。
但是我们不确定我们是否正确地做了它,如何使它成为一个合适的大数据hadoop用例,以及在技术堆栈上挣扎着做决定是hadoop还是一个无sql数据库或elasticsearch或solr等等。。。
我们的目标是围绕搜索大量不同格式的文档进行概念验证,如果可能的话,我们希望使用hadoop。。。有人能帮我们找到正确的方向吗?
谢谢

lrpiutwd

lrpiutwd1#

如果您不打算对hdfs中存储的文件上的数据进行任何分析,hadoop可能不是您的正确选择。如果您有非结构化或半结构化的数据,并且希望将这些数据压缩到表中以供将来分析,那么可以使用hdfs和hive/pig来提取它们。您可能不需要nosql,除非您需要高可用性或一致性,在您的情况下,我不这么认为。

相关问题