我运行sparksql查询并使用它们执行数据转换,然后将最终结果集(在一系列转换步骤之后)存储到 S3
.
我最近注意到,我的一项工作是在写入时创建大量分区文件 S3
而且要花很长时间才能完成(事实上这是失败的)。所以我想知道有没有办法 COALESCE
类似于SQLAPI中的函数,在写入之前减少分区的数量 S3
?
我知道重新分区的SQLAPI等价物是 Cluster By
. 所以我想知道有没有类似的 COALESCE
在sqlapi中也可以使用。
请注意,我只能访问SQLAPI,所以我的问题只与SparkSQLAPI有关(例如。 SELECT col from TABLE1 WHERE
...)
我们使用sparksql2.4.6.7
谢谢
1条答案
按热度按时间1sbrub3j1#
文档建议使用提示来合并分区,例如。