最近在看 K8s 的发布链路,发现一个挺现实的问题:发布失败以后,每个人下手的位置不太一样。
有人先翻 CI ,看是不是镜像没打出来;有人先看 Helm / Argo CD ,确认资源有没有真正下到集群;也有人直接 kubectl describe pod ,先扫 Events 、Pod 状态、Deployment ;还有人第一反应是去看业务日志。
我有点纠结的是:第一步到底该先确认发布动作有没有真正执行成功,还是直接进集群看 Pod 为什么没起来。
大家平时遇到这种发布失败,一般第一步看哪里?
有固定顺序吗,还是看报错现象临时判断?
有人先翻 CI ,看是不是镜像没打出来;有人先看 Helm / Argo CD ,确认资源有没有真正下到集群;也有人直接 kubectl describe pod ,先扫 Events 、Pod 状态、Deployment ;还有人第一反应是去看业务日志。
我有点纠结的是:第一步到底该先确认发布动作有没有真正执行成功,还是直接进集群看 Pod 为什么没起来。
大家平时遇到这种发布失败,一般第一步看哪里?
有固定顺序吗,还是看报错现象临时判断?