我想弄清楚apache flink的关键健康指标是什么。flink文档提供了大量的度量标准,很难找出重要的度量标准。
lx0bsm1f1#
一些建议:如果您使用的是kafka,那么kafka客户机度量将被转发到flink的度量系统中。如果你的工作跟不上数据的流入,监测消费者滞后会让你知道。如果你的工作没有进展,看看 currentLowWatermark 可以帮助您确定哪些任务阻碍了进度。注意检查点是明智的。 lastCheckpointDuration , lastCheckpointSize ,和 numberOf{Completed,Failed,InProgress}Checkpoints 在这里很有用。 uptime 以及 downtime 它可以帮助你跟踪你的工作在恢复方面花费了多少时间,而不是实际运行。社区最近一直在讨论如何更好地检测背压。你可以在dev邮件列表档案中找到这个讨论。
currentLowWatermark
lastCheckpointDuration
lastCheckpointSize
numberOf{Completed,Failed,InProgress}Checkpoints
uptime
downtime
1条答案
按热度按时间lx0bsm1f1#
一些建议:
如果您使用的是kafka,那么kafka客户机度量将被转发到flink的度量系统中。如果你的工作跟不上数据的流入,监测消费者滞后会让你知道。
如果你的工作没有进展,看看
currentLowWatermark
可以帮助您确定哪些任务阻碍了进度。注意检查点是明智的。
lastCheckpointDuration
,lastCheckpointSize
,和numberOf{Completed,Failed,InProgress}Checkpoints
在这里很有用。uptime
以及downtime
它可以帮助你跟踪你的工作在恢复方面花费了多少时间,而不是实际运行。社区最近一直在讨论如何更好地检测背压。你可以在dev邮件列表档案中找到这个讨论。