通过合并sparksql减少分区

yqyhoc1h  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(428)

我运行sparksql查询并使用它们执行数据转换,然后将最终结果集(在一系列转换步骤之后)存储到 S3 .
我最近注意到,我的一项工作是在写入时创建大量分区文件 S3 而且要花很长时间才能完成(事实上这是失败的)。所以我想知道有没有办法 COALESCE 类似于SQLAPI中的函数,在写入之前减少分区的数量 S3 ?
我知道重新分区的SQLAPI等价物是 Cluster By . 所以我想知道有没有类似的 COALESCE 在sqlapi中也可以使用。
请注意,我只能访问SQLAPI,所以我的问题只与SparkSQLAPI有关(例如。 SELECT col from TABLE1 WHERE ...)
我们使用sparksql2.4.6.7
谢谢

1sbrub3j

1sbrub3j1#

文档建议使用提示来合并分区,例如。

SELECT /*+ COALESCE(3) */ col from TABLE1

相关问题