就目前的情况来看,这个问题并不适合我们的问答形式。我们希望答案能得到事实、参考资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或广泛讨论。如果您觉得这个问题可以改进,并可能重新打开,请访问帮助中心寻求指导。
8年前关门了。
我有一个脚本,在一个表中插入每个用户的职位公告的相关系数。这个表现在有9300万行,并且在未来将以指数级的速度增长。该表只有三个字段:作业id、用户id和相关性。目前大约有6500名用户和45000个工作岗位。我需要重新考虑数据建模吗?
这种设置的最佳dbms是什么?
我需要能够排序的相关性和容易做的事情,如 SELECT relevance FROM jobpostrelevance WHERE job_id = 1 AND user_id = 2
1条答案
按热度按时间ymdaylpp1#
根据我的经验,如果你正在寻找最好的性能写作,你可以尝试mongodb或cassandra两者都非常好。尽管您的问题似乎适合于键值db(比如cassandra)。
但我会根据“你的硬件”来回答你的问题:
如果整个数据库(will)适合内存,我会选择mongodb,因为这样会得到更好的结果。模型:一个文档(mongodb是面向文档的),每个“列”作为一个属性。
如果整个数据库不符合记忆,我毫不怀疑:Cassandra是最好的选举。如果mongodb不能将整个数据存储在内存中,那么它的性能会变得更差(如您所读到的)http://www.cubrid.org/blog/dev-platform/nosql-benchmarking/). 模型:一个columnfamily,每个属性有一列。
使用cassandra,您将能够使用hadoop(在其上使用pig/hive)对数据进行排序(我尝试过),但我不知道您是否可以将mongodb“连接”到hadoop。我的建议是:mongodb有一个非常好的文档(由10gen提供),而cassandra没有mongodb那么好的文档。但如果您需要cassandra文档,可以访问datastax文档:http://www.datastax.com/docs/1.1/index