在sparksql中导出分区数

n53p2ov0  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(295)

我们在项目中处理大型数据集,因此在sparksql查询(特别是在连接中)中经常遇到性能问题。因此,我试图找出优化这些查询的方法。
有人能帮我理解吗-
如何确定特定表当前拆分到的分区数(这将有助于确定是否重新划分表以优化联接)
如何确定需要设置的分区的最佳数量 Join 根据参与表的大小优化功能?是否有任何经验法则来推导这个数字,以便join/aggregation等以最佳方式执行?
感谢您的帮助。谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题