in spark sc.newapihadooprdd正在读取5个分区的2.7 gb数据

qlzsbp2j  于 2021-06-10  发布在  Hbase
关注(0)|答案(1)|浏览(469)

我使用的是spark 1.4,我试图通过使用sc.newapihadooprdd读取2.7 gb数据来读取hbase中的数据,但是这个阶段创建了5个任务,需要2到3分钟来处理它。有人能告诉我如何增加更多的分区来快速读取数据吗?

xtupzzrd

xtupzzrd1#

org.apache.hadoop.hbase.mapreduce.TableInputFormat 为每个区域创建分区。你的table好像被分成5个区域。预拆分表应该会增加分区的数量(请在此处查看有关拆分的更多信息)。

相关问题