adfMap数据流-重用单个运行的spark cluster以并行执行Map数据流

qojgxg4l 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(403)

我们在adf中有一个复杂的etl，它运行多个具有数据流活动的管道，以基于表依赖关系在数据仓库中加载多个表。
作为运行多个具有相互依赖关系的管道的结果，多个数据流被执行为一些顺序运行的数据流和一些并行运行的数据流的混合。看起来每个并行运行的数据流都会产生一个新的spark集群，这导致我们每天的etl运行成本急剧上升！
理想情况下，如果可能的话，我们希望spark集群能够被重用来执行所有的并行数据流。有没有办法为并行数据流执行创建的spark集群的数量指定一个上限？
我们已经启用了10分钟的ttl。

apache-spark Azure azure-data-factory

来源：https://stackoverflow.com/questions/63634415/adf-mapping-data-flows-reuse-single-running-spark-cluster-for-parallel-executi