通过合并sparksql减少分区

yqyhoc1h 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(428)

我运行sparksql查询并使用它们执行数据转换，然后将最终结果集（在一系列转换步骤之后）存储到 S3 .
我最近注意到，我的一项工作是在写入时创建大量分区文件 S3 而且要花很长时间才能完成（事实上这是失败的）。所以我想知道有没有办法 COALESCE 类似于SQLAPI中的函数，在写入之前减少分区的数量 S3 ?
我知道重新分区的SQLAPI等价物是 Cluster By . 所以我想知道有没有类似的 COALESCE 在sqlapi中也可以使用。
请注意，我只能访问SQLAPI，所以我的问题只与SparkSQLAPI有关(例如。 SELECT col from TABLE1 WHERE ...)
我们使用sparksql2.4.6.7
谢谢

apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/66876162/reduce-partitions-by-coalesce-in-spark-sql

1条答案

按热度按时间

1sbrub3j1#

文档建议使用提示来合并分区，例如。

SELECT /*+ COALESCE(3) */ col from TABLE1

赞(0）回复(0）举报 2021-07-09

我来回答

通过合并sparksql减少分区

1条答案

相关问题

热门标签

最新问答