我正在尝试连接两个文件,每个10 gb,并使用内部连接。在我的集群中有3个工作节点。这是我的配置
Driver Memory: 5G Executor Memory: 15 G Cores/Executor: 1 spark.cores.max: 9
两个文件都是基于id列连接的。每个文件中有一千万条记录。它花费了无数的时间。有人能建议一下吗?
xzv2uavs1#
您可以尝试以下选项:重新划分数据修复数据倾斜问题(如果存在)套 spark.sql.shuffle.partitions (否则默认情况下将创建200个分区)更新spark配置(考虑到一个节点的ram为-15g)和9核
spark.sql.shuffle.partitions
Driver Memory: 2G Executor Memory: 7G cores: 4
1条答案
按热度按时间xzv2uavs1#
您可以尝试以下选项:
重新划分数据
修复数据倾斜问题(如果存在)
套
spark.sql.shuffle.partitions
(否则默认情况下将创建200个分区)更新spark配置(考虑到一个节点的ram为-15g)和9核