在mapreduce处理过程中,我需要在一个map执行中多次查找hbase。这正成为一个瓶颈,因为hbase正在变得非常缓慢。在一个Map过程中,查找是多次的,例如每行包含多个雇员ID,雇员信息存储在hbase上。有什么可以替代呢?hbase对于这样的处理应该是慢的吗?最好将hbase作为hdfs文本,然后执行join而不是查找。
vhmi4jdf1#
如果不知道你的mr工作到底在做什么,要给出一个完美的答案有点困难,但我会考虑使用 TableInputFormatBase (与 MultipleInputs 将hbase表与其他数据一起读入Map器),然后在员工id上加入。这可能意味着您现在需要两个mr jobs,但它可能比多次查找更快,而且扩展性肯定更好。
TableInputFormatBase
MultipleInputs
1条答案
按热度按时间vhmi4jdf1#
如果不知道你的mr工作到底在做什么,要给出一个完美的答案有点困难,但我会考虑使用
TableInputFormatBase
(与MultipleInputs
将hbase表与其他数据一起读入Map器),然后在员工id上加入。这可能意味着您现在需要两个mr jobs,但它可能比多次查找更快,而且扩展性肯定更好。