spark hivecontext.sql-它如何创建分区数

8fsztsew  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(228)

我执行以下操作:

val df = hiveContext.sql("select * from table")
df.show()

spark/hive如何选择要运行的分区/任务数量?在spark ui中查看时,它似乎是一个随机量,具体取决于每个表。不幸的是,当我的数据出现偏差时,我得到的任务数量非常少,比如说30个,而我想要1000个。这样就需要永远。
有没有办法明确定义哪个列是分区键,有没有办法强制它将数据均匀地分布到我的所有节点/执行器?
我在跑步 1.5.1 .

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题