V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
soasme
V2EX  ›  Google

分享一篇 Google SRE 做 Escalation 和事故应急响应的工程方案介绍帖子

  •  
  •   soasme · 2018-01-29 12:32:23 +08:00 · 2493 次点击
    这是一个创建于 2490 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本文是 Google Cloud Platform 团队的工程博客新文章,通过不少例子介绍了在 Google 内部是如何在开发和保障服务可靠性之间做权衡。工程师们可以以这篇文章作为标杆结合自家企业本身的需求去完善 Escalation 流程。

    点击查看,这篇是原文

    Google SRE Escalation 的四个级别:

    1. 停在 SRE 这一层,SRE 得到通知并快速响应。
    2. SRE 搞不定,开始寻求 开发团队的帮助。
    3. 错误持续了好几天,但还是没搞回 SLO,或者 30 天的错误预算花光了,会不让上新,专注解决问题。
    4. 如果更严重,那就牵涉 leadership 还有更多人进来解决问题。

    欢迎大家订阅 Techshack Weekly,以下是关注方式:

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   921 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:31 · PVG 05:31 · LAX 13:31 · JFK 16:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.