我希望你能帮我解答这个问题。基本上,当我直接在边缘节点上执行配置单元查询(sparksql)和在连接到远程配置单元元存储的本地计算机上执行时,我发现它们的执行时间有很大的不同。当我执行如下查询时:
select max(column) from table
看起来,首先它把整个表拿到我的电脑上,然后执行max的查询,因为2分钟左右什么都没有发生,然后它进入阶段,只需要2秒钟。当我查看web ui上的查询和执行时,2分钟内似乎什么都没有发生,然后查询开始在本地执行。
我想知道您是否可以建议spark如何处理远程查询?我是这样怀疑的,所以基本上它首先从表中获取所有数据,然后在本地对其执行查询吗?看来这对我来说是个瓶颈。
谢谢
汤姆
暂无答案!
目前还没有任何答案,快来回答吧!