考虑一个假设的hbase表。
密钥必须编码3元组 (k, m, n)
0到1000之间的整数。
典型的读取是一个范围查询 m
以及 n
,固定值为 k
.
读取负载是按指数分布的 k
. 换言之 k
负责大部分读取负载。
爱丽丝认为钥匙应该看起来像 "k-m-n"
为了利用引用的局部性。理想情况下,一台机器应该能够为整个查询提供服务。
鲍勃认为钥匙应该看起来像 "sha1(k-m)-n"
为了避免热斑:如果 k=1
非常频繁地访问,那么对于所有 k=1
不是所有的记录都在同一台机器上。
这两个论点对我都有意义。如何确定哪个选项更具可扩展性/经得起未来考验?有没有一种快速、实用的方法来检验这一点?
暂无答案!
目前还没有任何答案,快来回答吧!