我司我组的运维都看着挺辛苦的,经常半夜两三点起来处理故障问题,因为经常有致命告警。他们往往对某些实现上的细节不清楚,所以也很有可能把主导项目的开发 leader 叫起来,于是大家都在深更半夜不太清醒的状态下处理故障。
我一直在想,如果开发把功能做得完备些,特别是在上线前多测试演练,多在可能故障的地方埋点以帮助在意外情况下可以恢复到 一个慢但准确的 Plan B 的执行路径上来,这样哪怕半夜被叫醒,也可以快速迁到 plan B,不至于人为操作半天,毕竟人不在清醒情况下更容易出问题。
所以我总觉得运维如此辛苦,是开发
1 )没有用心把系统做得故障冗余
2 )没有重视上线前测试演练
3 )没有配合和敦促运维一起做好面板监控和自动化处理(于是乎总要通过慢的命令行的人工操作)
的结果。(我自己是开发 ,所以也会审视我们的开发队伍)。大家觉得呢
我一直在想,如果开发把功能做得完备些,特别是在上线前多测试演练,多在可能故障的地方埋点以帮助在意外情况下可以恢复到 一个慢但准确的 Plan B 的执行路径上来,这样哪怕半夜被叫醒,也可以快速迁到 plan B,不至于人为操作半天,毕竟人不在清醒情况下更容易出问题。
所以我总觉得运维如此辛苦,是开发
1 )没有用心把系统做得故障冗余
2 )没有重视上线前测试演练
3 )没有配合和敦促运维一起做好面板监控和自动化处理(于是乎总要通过慢的命令行的人工操作)
的结果。(我自己是开发 ,所以也会审视我们的开发队伍)。大家觉得呢
