我正在为即将到来的cassandra迁移设计一个数据模型。一个订单有一个orderid(神秘的uuid字段)和一个ordernumber(用户友好的编号)。getorder查询可以使用这两个查询中的任何一个来完成。
我的分区键是orderid,所以getbyorderid不是问题。getbyordernumber是-有一个一对一的Mapb/w orderid和ordernumber(高基数字段),所以在每个节点上创建一个本地辅助索引会降低查询速度。
我想知道的是,我可以创建一个新表,其中ordernumber作为分区键,orderid作为唯一的列(类似于一个辅助索引,但由我维护)。现在,一个getbyordernumber查询可以在两个调用中解析。
请容忍我,如果上述解决方案是惊人的错误,我是非常新的Cassandra。据我所知,对于这样一个列,如果我使用局部二级索引,cassandra将不得不查询每个节点的单个顺序。所以我想为什么不创建另一个存储Map的表。
我自己管理这个索引会错过什么?有一件事我可以看到,如果每次写入,我现在必须更新两个表。别的?
1条答案
按热度按时间moiiocjp1#
我想为什么不创建另一个存储Map的表。
没关系。来自Cassandra文件:
在下列情况下不要使用索引:
在高基数列上,因为您随后查询大量记录以获得少量结果。请参阅下面使用高基数列索引的问题。
使用高基数列索引的问题
如果在具有许多不同值的高基数列上创建索引,则字段之间的查询将导致许多查找,而结果却很少。在有10亿首歌曲的表格中,按作者查找歌曲(每个歌曲的值通常是唯一的)而不是按他们的录音师查找歌曲可能效率很低。。
将表作为索引的形式手动维护可能比使用内置索引更有效。对于包含唯一数据的列,为了方便起见,有时使用索引是很好的性能明智的做法,只要对具有索引列的表的查询量适中并且不是在恒定负载下。
相反,在基数极低的列(如布尔列)上创建索引是没有意义的。例如,索引中的每一个值都成为索引中的一行,导致所有假值都有一个巨大的行。索引大量具有foo=true和foo=false的索引列是没有用的。
对于cassandra数据建模来说,有一个非规范化的数据是正常的。