我执行以下操作:
val df = hiveContext.sql("select * from table")
df.show()
spark/hive如何选择要运行的分区/任务数量?在spark ui中查看时,它似乎是一个随机量,具体取决于每个表。不幸的是,当我的数据出现偏差时,我得到的任务数量非常少,比如说30个,而我想要1000个。这样就需要永远。
有没有办法明确定义哪个列是分区键,有没有办法强制它将数据均匀地分布到我的所有节点/执行器?
我在跑步 1.5.1
.
我执行以下操作:
val df = hiveContext.sql("select * from table")
df.show()
spark/hive如何选择要运行的分区/任务数量?在spark ui中查看时,它似乎是一个随机量,具体取决于每个表。不幸的是,当我的数据出现偏差时,我得到的任务数量非常少,比如说30个,而我想要1000个。这样就需要永远。
有没有办法明确定义哪个列是分区键,有没有办法强制它将数据均匀地分布到我的所有节点/执行器?
我在跑步 1.5.1
.
暂无答案!
目前还没有任何答案,快来回答吧!