adfMap数据流-重用单个运行的spark cluster以并行执行Map数据流

qojgxg4l  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(403)

我们在adf中有一个复杂的etl,它运行多个具有数据流活动的管道,以基于表依赖关系在数据仓库中加载多个表。
作为运行多个具有相互依赖关系的管道的结果,多个数据流被执行为一些顺序运行的数据流和一些并行运行的数据流的混合。看起来每个并行运行的数据流都会产生一个新的spark集群,这导致我们每天的etl运行成本急剧上升!
理想情况下,如果可能的话,我们希望spark集群能够被重用来执行所有的并行数据流。有没有办法为并行数据流执行创建的spark集群的数量指定一个上限?
我们已经启用了10分钟的ttl。

j7dteeu8

j7dteeu81#

当您启用了ttl时,请确保按顺序使用该azure ir执行数据流,这样您就不会启动多个集群池。
要并行执行,请使用不带ttl的azure ir。
我们正在开发您上面提到的“最大并发”功能,希望能尽快实现。

相关问题