apache flink的关键健康指标

ubby3x7f  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(456)

我想弄清楚apache flink的关键健康指标是什么。flink文档提供了大量的度量标准,很难找出重要的度量标准。

lx0bsm1f

lx0bsm1f1#

一些建议:
如果您使用的是kafka,那么kafka客户机度量将被转发到flink的度量系统中。如果你的工作跟不上数据的流入,监测消费者滞后会让你知道。
如果你的工作没有进展,看看 currentLowWatermark 可以帮助您确定哪些任务阻碍了进度。
注意检查点是明智的。 lastCheckpointDuration , lastCheckpointSize ,和 numberOf{Completed,Failed,InProgress}Checkpoints 在这里很有用。 uptime 以及 downtime 它可以帮助你跟踪你的工作在恢复方面花费了多少时间,而不是实际运行。
社区最近一直在讨论如何更好地检测背压。你可以在dev邮件列表档案中找到这个讨论。

相关问题