限制暴露的度量的数量

xzlaal3s  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(350)

我们有一个flink的工作,大约有30个操作员。当我们用12个flink并行运行这个作业时,总共输出了400.000个度量,这对于我们的度量平台来说太多了,无法很好地处理。
当看一看这类指标时,这似乎不是一个bug或类似的东西。
只是当有许多操作员有许多TaskManager和TaskSlot时,度量的数量经常被复制到40万个(也许作业重新启动也会复制度量的数量?)
这是我用于度量的配置:

metrics.reporters: graphite
metrics.reporter.graphite.class: org.apache.flink.metrics.graphite.GraphiteReporter
metrics.reporter.graphite.host: some-host.com
metrics.reporter.graphite.port: 2003
metrics.reporter.graphite.protocol: TCP
metrics.reporter.graphite.interval: 60 SECONDS
metrics.scope.jm: applications.__ENVIRONMENT__.__APPLICATION__.<host>.jobmanager
metrics.scope.jm.job: applications.__ENVIRONMENT__.__APPLICATION__.<host>.jobmanager.<job_name>
metrics.scope.tm: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>
metrics.scope.tm.job: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>
metrics.scope.task: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>.<task_id>.<subtask_index>
metrics.scope.operator: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>.<operator_id>.<subtask_index>

因为我们不需要全部的40万个指标,有没有可能影响哪些指标被公开?

nxagd54h

nxagd54h1#

您可能正在经历flink的某些版本中出现的延迟度量的基数爆炸,其中延迟从每个源子任务跟踪到每个操作符子任务。这在flink 1.7中得到了解决。看到了吗https://issues.apache.org/jira/browse/flink-10484 以及https://issues.apache.org/jira/browse/flink-10243 详情。
为了快速修复,您可以尝试通过配置 metrics.latency.interval 为0。

相关问题