我想知道哪个场景(或组合)更适合我的应用程序。从性能、可扩展性和高可用性方面。
这是我的申请表:
假设我将有超过1000万个文档,而且每天都在增长(可能在1年内,它将达到1亿多个文档。我想使用solr作为索引这些文档的工具,但问题是我有一些数据字段可能会经常更改(不会太多,但可能会改变)
情节:
1-使用solrcloud作为所有数据的数据库(即使是可以改变的)
2-使用solrcloud作为静态数据的数据库,使用rdbms(如oracle)存储动态字段。
3-对所有数据使用solrcloud和hadoop(hdfs+mapreduce)的集成。
致以最诚挚的问候。
1条答案
按热度按时间0ve6wy6x1#
我不确定solrcloud如何与dih一起工作(您可能会遇到这样的情况:索引只在一个示例上发生)。
另一方面,我会将数据存储在rdbms中,因为有时您需要重新索引solr,以便向索引添加一些新功能。
在一天结束时,我将使用db+solr(所有字段)和hadoop(尚未使用)或其他软件将数据发布到solrcloud中。