我需要数据转换写入以便为以后的读取进行优化。
.repartitionByRange(max_partitions, ..., rand())
.bucketBy(numBuckets, ...)
.sortBy(...)
.option("maxRecordsPerFile", 1000000)
由于这只是一个转换,我认为这可能是一个很好的用例,我尝试dbt
我从来没有使用过dbt -问题是,如果我不是dbt示例的管理员,只能在spark连接器的顶部编写查询,我是否能够在spark上使用dbt实现同样的效果?
谢谢
1条答案
按热度按时间fdbelqdn1#
模型配置中的dbt-spark适配器currently supports
partition_by
、cluster_by
和buckets
,它们与SparkSQL的CREATE TABLE
语句中提供的选项相同。