在map for mapreduce期间替换为hbase查找

yvgpqqbh  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(266)

在mapreduce处理过程中,我需要在一个map执行中多次查找hbase。这正成为一个瓶颈,因为hbase正在变得非常缓慢。在一个Map过程中,查找是多次的,例如每行包含多个雇员ID,雇员信息存储在hbase上。
有什么可以替代呢?hbase对于这样的处理应该是慢的吗?最好将hbase作为hdfs文本,然后执行join而不是查找。

vhmi4jdf

vhmi4jdf1#

如果不知道你的mr工作到底在做什么,要给出一个完美的答案有点困难,但我会考虑使用 TableInputFormatBase (与 MultipleInputs 将hbase表与其他数据一起读入Map器),然后在员工id上加入。这可能意味着您现在需要两个mr jobs,但它可能比多次查找更快,而且扩展性肯定更好。

相关问题