spark java中的内部连接

vqlkdk9b  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(362)

我正在尝试连接两个文件,每个10 gb,并使用内部连接。在我的集群中有3个工作节点。
这是我的配置

Driver Memory: 5G
Executor Memory: 15 G
Cores/Executor: 1
spark.cores.max: 9

两个文件都是基于id列连接的。每个文件中有一千万条记录。
它花费了无数的时间。
有人能建议一下吗?

xzv2uavs

xzv2uavs1#

您可以尝试以下选项:
重新划分数据
修复数据倾斜问题(如果存在)
spark.sql.shuffle.partitions (否则默认情况下将创建200个分区)
更新spark配置(考虑到一个节点的ram为-15g)和9核

Driver Memory: 2G
Executor Memory: 7G
cores: 4

相关问题