在一个表中有唯一的和大量的小分区会影响性能还是会在cassandra中产生额外的负载

ugmeyewa  于 2021-06-14  发布在  Cassandra
关注(0)|答案(2)|浏览(283)

我有一个具有400万个唯一分区键的表,从“ks”中选择count(*);

计数

4355748(1行)
我读过分区键的基数不能太高,也不能太低,这意味着不要使分区键太唯一。对吗?表没有任何群集键。更改数据分区是否有助于减轻负载?

gojuced7

gojuced71#

据我所知,cassandra正在使用一致散列将分区键Map到物理分区,所以基数应该无关紧要。

n6lpvg4x

n6lpvg4x2#

这真的取决于用例。。。如果没有按分区进行自然聚类,那么引入它可能就没有什么意义了。还有,阅读模式是什么?是否需要一次读取多行?
分区数对bloom筛选器、密钥缓存等的大小有影响,因此随着分区数的增加,bloom筛选器会增加,密钥缓存的命中率也会降低(直到增加其大小为止)。

相关问题