【17】Flink 之 并行度(Parallel)及设置

x33g5p2x  于2021-12-25 转载在 其他  
字(1.1k)|赞(0)|评价(0)|浏览(684)

1、TaskManager 和 Slot

  • Flink的每个TaskManager为集群提供solt。 solt的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。

Slot 是进程,如果使用Flink on Yarn 模式不需要考虑资源的配置。

2、并行度(Parallel)

  • 一个Flink程序由多个任务组成(source、transformation和 sink)。 一个任务由多个并行的实例(线程)来执行, 一个任务的并行实例(线程)数目就被称为该任务的并行度。

2.1、并行度(Parallel)的设置

  • 一个任务的并行度设置可以从多个层次指定
  1. Operator Level(算子层次)
  2. Execution Environment Level(执行环境层次)
  3. Client Level(客户端层次)
  4. System Level(系统层次)

2.2、Operator Level(算子层面)

一个算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定

2.3、Execution Environment Level(全局层面)

执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。为了以并行度3来执行所有的算子、数据源和data sink, 可以通过如下的方式设置执行环境的并行度:

  • 执行环境的并行度可以通过显式设置算子的并行度而被重写

2.4、Client Level

  • 并行度可以在客户端将job提交到Flink时设定。
  • 对于CLI客户端,可以通过-p参数指定并行度
    ./bin/flink run -p 10 WordCount-java.jar

2.5、System Level(尽量不使用)

  • 在系统级可以通过设置flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度

2.6、并行度图解

Example1

解释:

  1. 在fink-conf.yaml中 taskmanager.numberOfTaskSlots 默认值为1,即每个Task Manager上只有一个Slot ,此处是3
  2. Example中,WordCount程序设置了并行度为1,意味着程序 Source、Reduce、Sink在一个Slot中,占用一个Slot

Example2
  解释:

  1. 通过设置并行度为2后,将占用2个Slot

Example3
  解释:

  1. 通过设置并行度为9,将占用9个Slot

Example4
  解释:

  1. 通过设置并行度为9,并且设置sink的并行度为1,则Source、Reduce将占用9个Slot,但是Sink只占用1个Slot

相关文章