in spark sc.newapihadooprdd正在读取5个分区的2.7 gb数据

qlzsbp2j 于 2021-06-10 发布在 Hbase

关注(0)|答案(1)|浏览(484)

我使用的是spark 1.4，我试图通过使用sc.newapihadooprdd读取2.7 gb数据来读取hbase中的数据，但是这个阶段创建了5个任务，需要2到3分钟来处理它。有人能告诉我如何增加更多的分区来快速读取数据吗？

hbase apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/39628851/in-spark-sc-newapihadooprdd-is-reading-2-7-gb-data-the-with-5-partitions

1条答案

按热度按时间

org.apache.hadoop.hbase.mapreduce.TableInputFormat 为每个区域创建分区。你的table好像被分成5个区域。预拆分表应该会增加分区的数量（请在此处查看有关拆分的更多信息）。

赞(0）回复(0）举报 2021-06-10

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前