[图文]Google SRE 出书了，简单总结目前已看的一些内容

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 3679 days ago, the information mentioned may be changed or developed.

原文发在公众号，图文并茂，这里貌似弄个图都很麻烦

Google 出了一本 Site Reliability Engineering 的书。这本书讲的是 How Google Runs Production Systems 。

回顾了上一家公司(阿里技术保障部 DBA 团队)的 5 年，经历了天猫多次双十一，还在支付宝 DBA 团队待过大半年的时间。深刻的理解到一个庞大的网站的稳定性，需要一支身经百战的运维技术团队来操盘。

Google 作为互联网公司的前排兵，能出这样一本书，对于运维人员来说，真的非常值得一读。

这本书的中心思想

1.建设和运维分布式系统是大规模生产基础设施根本，在这里面增加这几个要求:可扩展，可靠，高效.要达到这些要求，需要大量的优秀的设计和试错。

2.这本书收集了很多论文和文章，由谷歌的网站可靠性小组的主要成员讲解，在过去的十年如何成功从这些深水走过。

3.从这本书，将学习如何谷歌持续监控并部署在世界上一些最大的软件系统，它的网站可靠性工程师团队如何学习和中断后可改善，以及他们如何平衡冒险 VS 可靠性，错误的预算。

回到这本书，主要分了四个部分

1.网站可靠性保证是神马？和传统 IT 行业惯例的有哪些不同？

2.检测模式，行为和关切的领域，影响着一个网站可靠性工程师的工作

3.既要理解原理，又能实际操作，这就是 SRE 工程师的工作:构建和操作大型分布式计算系统？

4.探索谷歌的最佳实践培训,沟通,和会议,或许有适合您的团队可以借鉴的

前面几章的总结

第五章，消除苦逼的活，这里真是写到我心坎里头了。我相信做过运维的人苦逼的活没少干。苦逼的活其实是挑战个人的能力的地方，可否化繁为简，可否从一堆屎一样的事情里面做出一朵花来。

先写着这么多

2 replies • 2016-03-31 16:57:26 +08:00

strwei

Mar 31, 2016

为什么壳子做得那么丑

yangdehua

Mar 31, 2016

@strwei 什么壳子？