需要提高spark sql连接的性能

jgzswidk  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(243)

我一直在做一个项目,我们使用sparksql作为分析平台,目前我在连接两个Dataframe时遇到了一些问题 df1 &
df2 df1 有25000条记录 df2 有127000条记录
当我在sparkDataframe中连接这两个表时,连接要花费很多时间
val df\u join=df1.join(df2,df2(“col1”)===df1(“col1”)).drop(df1(“col2”))
我检查了spark用户界面的状态,它显示了一些惊人的数字
而且输入的大小/记录都在奇怪地增加
请让我知道为什么和如何输入大小大大增加,我应该如何调整我的Spark工作
附件是集群的屏幕截图
Yarn上运行的三节点群集
6 gb用于驱动程序5 gb用于分配的执行器,每个执行器2个内核


作业状态经过30多分钟后,输入大小已增加到近1000gb

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题