目前,在我的组织中,我们在ElasticSearch中保存半结构化数据,我们使用查询进行快速文本搜索和聚合,但我们有其他产品位于其他数据库中,因此我们希望将所有数据放在HDFS等数据湖中
那么,如果我使用HDFS作为数据湖来保存原始数据,如何使用ElasticSearch?我的意思是在使用它之前对数据进行ElasticSearch,那么是否可以将数据保存在数据湖中,然后ElasticSearch将直接从数据湖中查询数据,而不需要将数据存储在弹性存储器中。还是我将数据保存在数据湖中,然后处理它,并再次存储在弹性中,以便它可以索引它?
总之,我想了解弹性和Hadoop集成的概念
1条答案
按热度按时间s71maibg1#
Spark和Hive都提供Elasticsearch连接器;除了可能的备份功能之外,不需要将文档导出到HDFS。
https://www.elastic.co/guide/en/elasticsearch/hadoop/current/reference.html