我是新手在Cassandra,我创建了一个cluseter与以下规格。
如何确保cassandra在集群中均匀地分布数据?
node count: 4
replication_factor: 3
表架构:
CREATE TABLE space.user (
id uuid PRIMARY KEY,
firstname text,
lastname text
) WITH bloom_filter_fp_chance = 0.01
AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
AND comment = ''
AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
AND crc_check_chance = 1.0
AND dclocal_read_repair_chance = 0.1
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND memtable_flush_period_in_ms = 0
AND min_index_interval = 128
AND read_repair_chance = 0.0
AND speculative_retry = '99PERCENTILE';
1条答案
按热度按时间yizd12fk1#
最简单的方法是使用
nodetool status
-你可以查一下表上显示了多少Load
列-这是磁盘上的数据量,但它也可以计算未清理的数据(如果更改了拓扑,则可能需要运行nodetool cleanup
删除该数据)。基本上,节点之间不应该有太大的差异,但这取决于指定为
num_tokens
. 如果每个服务器有8个令牌,那么与平均大小的差异可能是+-10-12%。对于较高数量的令牌,差异可能较小。但在您的例子中,我认为节点之间的差异不会很大,因为您有非常小的行,而且名字/姓氏应该非常大。