当使用cassandra推荐的randompartitioner(或Murrin3Partitioner)时,不可能对键执行有意义的范围查询,因为行是使用键的md5哈希分布在集群中的。这些散列称为“令牌”
尽管如此,通过为每个计算工作者分配一系列令牌,将一个大表拆分为多个计算工作者是非常有用的。使用cql3,似乎可以直接针对令牌发出查询,但是下面的python不起作用。。。编辑:在切换到对cassandra数据库(doh!)的最新版本进行测试之后工作,并根据以下注解更新语法:
## use python cql module
import cql
## If running against an old version of Cassandra, this raises:
## TApplicationException: Invalid method name: 'set_cql_version'
conn = cql.connect('localhost', cql_version='3.0.2')
cursor = conn.cursor()
try:
## remove the previous attempt to make this work
cursor.execute('DROP KEYSPACE test;')
except Exception, exc:
print exc
## make a keyspace and a simple table
cursor.execute("CREATE KEYSPACE test WITH strategy_class = 'SimpleStrategy' AND strategy_options:replication_factor = 1;")
cursor.execute("USE test;")
cursor.execute('CREATE TABLE data (k int PRIMARY KEY, v varchar);')
## put some data in the table -- must use single quotes around literals, not double quotes
cursor.execute("INSERT INTO data (k, v) VALUES (0, 'a');")
cursor.execute("INSERT INTO data (k, v) VALUES (1, 'b');")
cursor.execute("INSERT INTO data (k, v) VALUES (2, 'c');")
cursor.execute("INSERT INTO data (k, v) VALUES (3, 'd');")
## split up the full range of tokens.
## Suppose there are 2**k workers:
k = 3 # --> eight workers
token_sub_range = 2**(127 - k)
worker_num = 2 # for example
start_token = worker_num * token_sub_range
end_token = (1 + worker_num) * token_sub_range
## put single quotes around the token strings
cql3_command = "SELECT k, v FROM data WHERE token(k) >= '%d' AND token(k) < '%d';" % (start_token, end_token)
print cql3_command
## this fails with "ProgrammingError: Bad Request: line 1:28 no viable alternative at input 'token'"
cursor.execute(cql3_command)
for row in cursor:
print row
cursor.close()
conn.close()
我很想用pycassa实现这一点,因为我更喜欢它的pythonic接口。
有没有更好的办法?
2条答案
按热度按时间hmae6n7t1#
它不是cql3,但这里有一个简单的程序,可以直接使用thrift接口读取localhost拥有的所有(pickle)数据。这可以用来构建一个以cassandra为后端的简单map/reduce引擎。每个节点都会在属于自己的数据上运行类似于这样的to map(),这样就不会产生数据检索的网络开销。然后,结果将返回到单独节点上的reduce()阶段。
显然,对于cassandra1.2+中的vnodes,这并不是很好。我现在使用一种索引方法,允许在较小的局部数据子集上使用map(),并支持vnode。
hsgswve42#
我已经更新了问题以包含答案。