sql中的cluster-by和joins

irtuqstp  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(189)

关于cluster by和query性能,我有几个问题:-
我在另一支球队看到他们总是表现出色 repartition ( cluster by )在任何联接之前的联接列上。这是一个好习惯吗 cluster by 出于性能原因,在连接之前使用连接键?利与弊是什么?谁能解释一下这是不是真的吗。据我所知, cluster by 将导致洗牌和加入。因此,它如何帮助改善查询性能?
另外,我在某个地方读到,让连接键的名称在连接条件上相互匹配总是更好的。另外,如果我们正在执行 repartition 在join和列名前面表示 Right 连接的边与 Left 那么,是否建议重命名列以匹配这两个列,然后执行联接?从查询性能的Angular 来看,在连接的两侧使用相同的列名是否重要?
谢谢。感谢您的帮助。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题