sql中的cluster-by和joins

irtuqstp 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(189)

关于cluster by和query性能，我有几个问题：-
我在另一支球队看到他们总是表现出色 repartition ( cluster by )在任何联接之前的联接列上。这是一个好习惯吗 cluster by 出于性能原因，在连接之前使用连接键？利与弊是什么？谁能解释一下这是不是真的吗。据我所知， cluster by 将导致洗牌和加入。因此，它如何帮助改善查询性能？
另外，我在某个地方读到，让连接键的名称在连接条件上相互匹配总是更好的。另外，如果我们正在执行 repartition 在join和列名前面表示 Right 连接的边与 Left 那么，是否建议重命名列以匹配这两个列，然后执行联接？从查询性能的Angular 来看，在连接的两侧使用相同的列名是否重要？
谢谢。感谢您的帮助。

apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/63127627/cluster-by-and-joins-in-spark-sql

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

sql中的cluster-by和joins

暂无答案！

相关问题

热门标签

最新问答