spark java中的内部连接

vqlkdk9b 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(404)

我正在尝试连接两个文件，每个10 gb，并使用内部连接。在我的集群中有3个工作节点。
这是我的配置

Driver Memory: 5G
Executor Memory: 15 G
Cores/Executor: 1
spark.cores.max: 9

两个文件都是基于id列连接的。每个文件中有一千万条记录。
它花费了无数的时间。
有人能建议一下吗？

1条答案

您可以尝试以下选项：
重新划分数据
修复数据倾斜问题（如果存在）
套 spark.sql.shuffle.partitions （否则默认情况下将创建200个分区）
更新spark配置（考虑到一个节点的ram为-15g）和9核

Driver Memory: 2G
Executor Memory: 7G
cores: 4