在Kubernetes中重置pod重启计数的非中断方式

5uzkadbs  于 2023-10-17  发布在  Kubernetes
关注(0)|答案(1)|浏览(208)

目前,我们的监控设计是这样的,如果任何pod重新启动超过50次,它就会发出警报。
这是我们收到的一个警报

summary = More than 50 restarts in pod xxx on cluster xxx

在某些情况下,由于计划的维护活动,特定的应用程序pod会重新启动,并且重新启动计数超过50,随后我们会收到警报。
此警报将处于活动状态,直到计数再次重置为0。
因此,对于非生产环境,我们删除该pod(超过50次重启),然后部署创建一个新的pod,并且自动重启计数(对于新pod)为0,我们都很高兴。
但是我们没有这种杠杆来做同样的破坏性操作,即删除生产中的pod。如果我们不这样做,重启计数总是超过50,警报不断出现。在这之间,我们也很有可能放松一个真正的警报。
我们如何克服这一点。我想这应该是每个人在k8s世界面临的同样的问题。
这是我们用来跟踪重启计数的Prometheus指标
kube_pod_container_status_restarts_total > 50
尝试查找k8s文档以直接从k8s etc数据库重置pod计数器,但这似乎不是推荐的方法。
我们如何克服这一点。什么是最好的方法。

wj8zmpe1

wj8zmpe11#

这只能通过重新启动pod来完成。
此外,与此相关的功能已被拒绝。
https://github.com/kubernetes/kubernetes/issues/50375

相关问题