kubernetes 如果Kubelet崩溃或停止报告,如何删除EKS托管节点组中的节点?

m0rkklqb  于 2023-04-11  发布在  Kubernetes
关注(0)|答案(1)|浏览(181)

我正在使用AWS EKS与托管节点组。在过去的几周里,我有两次遇到其中一个节点中的Kubelet崩溃或停止向控制平面报告的情况。
在这种情况下,我希望自动缩放组将此节点识别为不健康,并替换它。然而,这不是发生的事情。我已经通过创建一个节点并手动停止Kubelet重新创建了这个问题,请参见下图:

我的第一个想法是创建一个事件总线警报,它会触发一个lambda来处理这个问题,但是我在事件总线的服务列表中找不到EKS服务,所以...
有没有人知道一个工具或配置,这将有助于这一点?要明确的是,我正在寻找的东西,将:
1.检测到kubelet没有连接到控制平面
1.删除群集中的节点
1.终止EC2
谢谢!

y4ekin9u

y4ekin9u1#

我建议看看node-problem-detector或Cloudflare的这个blog。在EKS路线图上有一个issue用于自动节点健康检查。如果它对你很重要,我会支持这个问题。

相关问题