由于Spark偏斜，胶水作业失败

y3bcpkx1 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(133)

我在spark工作中遇到了一个偏斜问题，两个分区有十亿多条记录，其他分区有数百万条记录。如果我删除20亿条记录的分区，作业运行正常，但会失败。除了盐渍，还有什么其他的方法能帮上忙吗？
数据
|合同计数|
|邮编：2205181264|
|2094348180英镑|
|邮编：448206125|
|410970798第纳尔|
如果我删除合同a和b，工作将运行没有任何问题。如果我加上契约a和b，用100或500的盐析因子，我得到的错误是：大小超过integer.max\u值，这是当无序块大小大于2gb时的错误。以下是我使用的其他spark配置：
--spark.warn.executor.memoryoverhead=4096
--conf spark.yarn.executor.memory=8g
--conf spark.sql.shuffle.partitions=1600
--conf spark.warn.driver.memoryoverhead=6g

apache-spark

来源：https://stackoverflow.com/questions/66631567/glue-job-failing-due-to-spark-skewness

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

由于Spark偏斜，胶水作业失败

暂无答案！

相关问题

热门标签

最新问答