我们在项目中处理大型数据集,因此在sparksql查询(特别是在连接中)中经常遇到性能问题。因此,我试图找出优化这些查询的方法。
有人能帮我理解吗-
如何确定特定表当前拆分到的分区数(这将有助于确定是否重新划分表以优化联接)
如何确定需要设置的分区的最佳数量 Join
根据参与表的大小优化功能?是否有任何经验法则来推导这个数字,以便join/aggregation等以最佳方式执行?
感谢您的帮助。谢谢。
我们在项目中处理大型数据集,因此在sparksql查询(特别是在连接中)中经常遇到性能问题。因此,我试图找出优化这些查询的方法。
有人能帮我理解吗-
如何确定特定表当前拆分到的分区数(这将有助于确定是否重新划分表以优化联接)
如何确定需要设置的分区的最佳数量 Join
根据参与表的大小优化功能?是否有任何经验法则来推导这个数字,以便join/aggregation等以最佳方式执行?
感谢您的帮助。谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!