Please enable JavaScript.
Coggle requires JavaScript to display documents.
巡检整改 - Coggle Diagram
巡检整改
集群状态巡检
集群状态正常
下一步:节点状态巡检
下一步:Pod状态巡检
集群状态异常
拉产研同时反馈给业务,
查看业务是否有影响
同时登录集群节点,
登录查看集群状态
2.1 集群本身状态正常。
基本是管控端jnsgw原因,需再拉网络的同学
2.2 集群状态依旧异常
kubectl get nodes有问题
产研介入前的排障思路:
docker ps -a 查看master节点上的容器状态
有频繁重启, docker logs <id>查看容器日志
创建超过1小时
因还未有业务,可先根据排障指南处理
删除超过1小时
再次确认删除前,是否已清理干净业务
联系业务,查看是否有异常
业务有影响,赶紧拉产研
业务无影响,根据排障指南操作
节点状态巡检
NotReady(初始化中,或者kubelet/docker有问题)
Unknown(大部分是网络问题)
SchedulingDisabled(维护状态)
每天定时同步,有多少节点状态不正常。
NotReady/Unknown的节点,影不影响业务?
SchedulingDisabled的节点,什么时候能维护结束?恢复调度?
Pod拨测
集群级别拨测失败
(同一集群下>=3个部署组失败)
参照集群状态异常处理
节点级别拨测失败
参照节点状态NotReady/Unknown处理
Pod级别拨测失败
Runing但异常(风险点:业务hang死)
Terminating超过10分钟(风险点:业务Pod不能重建)
Evicted状态(风险点:业务日志量太大)
ContainerCreating或Pending超过10分钟
(风险点:业务Pod重建失败)
TODO:待优化项
系统容器拨测
TODO
Pod网络通信测试
(pod间互ping)
监控告警
健康检查