发生了什么?
我有一个k8s集群(v1.27.2),包含一个节点。我设置了evictionHard: nodefs.available: 90%
,并向kubelet根目录写入了大量数据(使用了8GB / 总10GB)以触发驱逐。为这个节点添加了node.kubernetes.io/disk-pressure
污点。但是当kubelet重启时,之前的磁盘压力污点被奇怪地擦除了。待处理的pod通常会安排在当前节点上运行。然后我检查了kubelet日志,发现了以下内容:
kubelet重启:
I0727 11:09:05.782733 3813426 flags.go:64] FLAG: --tls-private-key-file=""
I0727 11:09:05.782737 3813426 flags.go:64] FLAG: --topology-manager-policy="none"
I0727 11:09:05.782741 3813426 flags.go:64] FLAG: --topology-manager-scope="container"
I0727 11:09:05.782745 3813426 flags.go:64] FLAG: --v="8"
I0727 11:09:05.782749 3813426 flags.go:64] FLAG: --version="false"
I0727 11:09:05.782754 3813426 flags.go:64] FLAG: --vmodule=""
I0727 11:09:05.782757 3813426 flags.go:64] FLAG: --volume-plugin-dir="/usr/libexec/kubernetes/kubelet-plugins/volume/exec/"
I0727 11:09:05.782761 3813426 flags.go:64] FLAG: --volume-stats-agg-period="1m0s"
I0727 11:09:05.796690 3813426 mount_linux.go:222] Detected OS with systemd
更新节点状态NodeHasNoDiskPressure
I0727 11:09:10.858628 3813426 kubelet_node_status.go:632] "Recording event message for node" node="192.168.2.107" event="NodeHasNoDiskPressure"
I0727 11:09:10.858640 3813426 kubelet_node_status.go:762] "Setting node status condition code" position=9 node="192.168.2.107"
驱逐管理器开始同步
I0727 11:09:13.373393 3813426 eviction_manager.go:292] "Eviction manager: synchronize housekeeping"
Q: 为什么kubelet报告NodeHasNoDiskPressure ?
A: Eviction manager尚未执行同步方法
通常情况下,之前带有污点的节点在重启后应该保留,否则没有意义。也许我们需要确保在kubelet重启时污点不会被删除?
你期望发生什么?
之前的节点污点不会被擦除
我们如何尽可能精确地重现它?
在磁盘压力驱逐触发后反复重启kubelet。观察node.spec.taints
还需要了解其他信息吗?
- 无响应*
Kubernetes版本
1.27.2
云提供商
OS版本
# On Linux:
$ cat /etc/os-release
# paste output here
$ uname -a
# paste output here
# On Windows:
C:\> wmic os get Caption, Version, BuildNumber, OSArchitecture
# paste output here
9条答案
按热度按时间qncylg1j1#
/sig node
/assign
nwlqm0z12#
@bobbypage @liggitt @tallclair @Random-Liu PTAL
uujelgoq3#
/cc
vd8tlhqk4#
/triage accepted
xuo3flqw5#
@klueska @dashpole @liggitt @derekwaynecarr @pacoxu PTAL. 谢谢!
x8diyxa76#
我遇到了相同的问题,有修复计划吗?
hfyxw5xn7#
我希望社区能尽快修复这个bug。
juud5qan8#
我之前也遇到过这个问题,有没有修复计划?
gwo2fgha9#
我相信这个问题的影响实际上非常小,节点的污点会短暂消失然后再次出现。因此,我想问一下我们是否仍然有必要修复这个问题