需要提高spark sql连接的性能

jgzswidk 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(243)

我一直在做一个项目，我们使用sparksql作为分析平台，目前我在连接两个Dataframe时遇到了一些问题 df1 &
df2 df1 有25000条记录 df2 有127000条记录
当我在sparkDataframe中连接这两个表时，连接要花费很多时间
val df\u join=df1.join（df2，df2（“col1”）===df1（“col1”））.drop（df1（“col2”））
我检查了spark用户界面的状态，它显示了一些惊人的数字
而且输入的大小/记录都在奇怪地增加
请让我知道为什么和如何输入大小大大增加，我应该如何调整我的Spark工作
附件是集群的屏幕截图
Yarn上运行的三节点群集
6 gb用于驱动程序5 gb用于分配的执行器，每个执行器2个内核

作业状态经过30多分钟后，输入大小已增加到近1000gb