我在spark工作中遇到了一个偏斜问题,两个分区有十亿多条记录,其他分区有数百万条记录。如果我删除20亿条记录的分区,作业运行正常,但会失败。除了盐渍,还有什么其他的方法能帮上忙吗?
数据
|合同计数|
|邮编:2205181264|
|2094348180英镑|
|邮编:448206125|
|410970798第纳尔|
如果我删除合同a和b,工作将运行没有任何问题。如果我加上契约a和b,用100或500的盐析因子,我得到的错误是:大小超过integer.max\u值,这是当无序块大小大于2gb时的错误。以下是我使用的其他spark配置:
--spark.warn.executor.memoryoverhead=4096
--conf spark.yarn.executor.memory=8g
--conf spark.sql.shuffle.partitions=1600
--conf spark.warn.driver.memoryoverhead=6g
暂无答案!
目前还没有任何答案,快来回答吧!