我正在尝试连接两个文件,每个10 gb,并使用内部连接。在我的集群中有3个工作节点。这是我的配置
Driver Memory: 5GExecutor Memory: 15 GCores/Executor: 1spark.cores.max: 9
Driver Memory: 5G
Executor Memory: 15 G
Cores/Executor: 1
spark.cores.max: 9
两个文件都是基于id列连接的。每个文件中有一千万条记录。它花费了无数的时间。有人能建议一下吗?
xzv2uavs1#
您可以尝试以下选项:重新划分数据修复数据倾斜问题(如果存在)套 spark.sql.shuffle.partitions (否则默认情况下将创建200个分区)更新spark配置(考虑到一个节点的ram为-15g)和9核
spark.sql.shuffle.partitions
Driver Memory: 2GExecutor Memory: 7Gcores: 4
Driver Memory: 2G
Executor Memory: 7G
cores: 4
1条答案
按热度按时间xzv2uavs1#
您可以尝试以下选项:
重新划分数据
修复数据倾斜问题(如果存在)
套
spark.sql.shuffle.partitions
(否则默认情况下将创建200个分区)更新spark配置(考虑到一个节点的ram为-15g)和9核