如果我计划使用spark over dbt写入数据，dbt是否支持repartitionByRange、partitionBy、bucketBy、sortBy？

xriantvc 于 2022-11-16 发布在 Apache

关注(0)|答案(1)|浏览(152)

我需要数据转换写入以便为以后的读取进行优化。

.repartitionByRange(max_partitions, ..., rand())
.bucketBy(numBuckets, ...)
.sortBy(...)
.option("maxRecordsPerFile", 1000000)

由于这只是一个转换，我认为这可能是一个很好的用例，我尝试dbt
我从来没有使用过dbt -问题是，如果我不是dbt示例的管理员，只能在spark连接器的顶部编写查询，我是否能够在spark上使用dbt实现同样的效果？
谢谢

1条答案

模型配置中的dbt-spark适配器currently supportspartition_by、cluster_by和buckets，它们与SparkSQL的CREATE TABLE语句中提供的选项相同。