如果我计划使用spark over dbt写入数据,dbt是否支持repartitionByRange、partitionBy、bucketBy、sortBy?

xriantvc  于 2022-11-16  发布在  Apache
关注(0)|答案(1)|浏览(152)

我需要数据转换写入以便为以后的读取进行优化。

.repartitionByRange(max_partitions, ..., rand())
.bucketBy(numBuckets, ...)
.sortBy(...)
.option("maxRecordsPerFile", 1000000)

由于这只是一个转换,我认为这可能是一个很好的用例,我尝试dbt
我从来没有使用过dbt -问题是,如果我不是dbt示例的管理员,只能在spark连接器的顶部编写查询,我是否能够在spark上使用dbt实现同样的效果?
谢谢

fdbelqdn

fdbelqdn1#

模型配置中的dbt-spark适配器currently supportspartition_bycluster_bybuckets,它们与SparkSQL的CREATE TABLE语句中提供的选项相同。

相关问题