远程连接的慢速配置单元查询执行

9ceoxa92  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(143)

我希望你能帮我解答这个问题。基本上,当我直接在边缘节点上执行配置单元查询(sparksql)和在连接到远程配置单元元存储的本地计算机上执行时,我发现它们的执行时间有很大的不同。当我执行如下查询时:

select max(column) from table

看起来,首先它把整个表拿到我的电脑上,然后执行max的查询,因为2分钟左右什么都没有发生,然后它进入阶段,只需要2秒钟。当我查看web ui上的查询和执行时,2分钟内似乎什么都没有发生,然后查询开始在本地执行。
我想知道您是否可以建议spark如何处理远程查询?我是这样怀疑的,所以基本上它首先从表中获取所有数据,然后在本地对其执行查询吗?看来这对我来说是个瓶颈。
谢谢
汤姆

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题