我使用的是spark 1.4,我试图通过使用sc.newapihadooprdd读取2.7 gb数据来读取hbase中的数据,但是这个阶段创建了5个任务,需要2到3分钟来处理它。有人能告诉我如何增加更多的分区来快速读取数据吗?
xtupzzrd1#
org.apache.hadoop.hbase.mapreduce.TableInputFormat 为每个区域创建分区。你的table好像被分成5个区域。预拆分表应该会增加分区的数量(请在此处查看有关拆分的更多信息)。
org.apache.hadoop.hbase.mapreduce.TableInputFormat
1条答案
按热度按时间xtupzzrd1#
org.apache.hadoop.hbase.mapreduce.TableInputFormat
为每个区域创建分区。你的table好像被分成5个区域。预拆分表应该会增加分区的数量(请在此处查看有关拆分的更多信息)。