在从rdbms到hbase的大容量数据迁移过程中,是否存在区域分割过于频繁的可能性?如果它出现的次数更多,那么它肯定会影响读写性能。
我知道预分裂可以在一定程度上避免这个区域分裂。
但是在我们的产品设计中,首先我们要在hbase中单独编写新数据(可能是6个月),一旦hbase系统稳定了对新数据的读写,就开始将数据从rdbms迁移到hbase。在这个阶段,我怀疑区域分割可能会经常发生,因为数据太大,这会影响读写性能。
我们的行键将按每个用户的顺序递增。对于不同的用户,它将以不同的方式启动。
请提供一些解决方案,以便在数据迁移期间保持服务器的性能。
1条答案
按热度按时间qrjkbowd1#
我支持不要预先拆分hbase。该产品的关键功能之一是自动切分。分裂是一个相当快的操作,但它把你的路径压缩。我发现hbase中的堆压缩性能很差。在splice machine(开源)中,我们将压缩移到了spark上,对hbase中的操作几乎没有影响。