一年一度的系统工程国际盛会 SRECon 即将于 3 月 13-14 日在美国西岸重要城市旧金山拉开帷幕。想围观运维圈高大上的国际会议但是对 SRE 又知之甚少?没关系,这次数人云整理集合了十篇与之相关的文章,涵盖了理念、文化、团队建设、工程实践等各个方面,帮你快速了解 SRE ,冲刺进阶,弯道超车。
虽然对 SRE 的内涵和外延国内国外业内人士众说纷纭, 但是有一个基本共识就是“ SRE 不仅是工具和技术,它更是在企业内部的一种文化转变。”下面的三篇文章分别从 SRE 的发端之处-Google 内部的 SRE 实践、其他国外互联网公司的洞察以及国内创业企业对于 SRE 的理解三个方面来综合介绍 SRE 的源起、理念和文化。
正如 Anthony Caiafa 在《 SRE:文化传奇不完全指南》中提到的:“ 建立 SRE 体系没有一个统一的处方,每个企业都会找到适合自身组织体系和运营模式的方法。仅仅因为这是一种流行趋势而强迫引入这种文化绝非一种正确的态度,这些都要取决于企业自身。”
《 SRE :文化传奇不完全指南?》
http://blog.dataman-inc.com/shurenyun-sre-251/
《 SRE 系列教程 | 孙宇聪:来自 Google 的 DevOps 理念及实践》
(上) http://blog.dataman-inc.com/shurenyun-sre-188/
(下) http://blog.dataman-inc.com/shurenyun-sre-189/
《 SRE 是如何炼成的》
http://blog.dataman-inc.com/shurenyun-sre-245/
如果你是一个刚加入 SRE 团队的新人或者是公司的第一位 SRE 你应该从哪里入手开始新工作?入门的步骤又是怎样?
如果你是一个公司运维负责人你又应该如何招聘你的第一个 SRE 成员?如何组建一个 SRE 团队?
看了下面两篇文章相信你能有所收获。
《 SRE 第一课: New to an SRE team?》
http://blog.dataman-inc.com/shurenyun-sre-250/
《人永远不够用——在复旦大学分享 SRE 团队组织和管理》
http://blog.dataman-inc.com/shurenyun-sre-203/
SRE 既是一种技术文化、运维理念,也是一些具体的运维实践和工程实践。它涵盖了业务部署、配置变更、状态巡检、容量分析、故障响应等典型的场景同时也拓展到系统工程的领域,通过工具化和自动化提升运维工作的效率。
我们选取了下面三篇文章介绍了 SRE 自动化的演进以及 SRE 在监控报警方面的具体实践。如前所述 SRE 涵盖的范围非常广,这些仅仅是 SRE 工程实践中很小的一部分内容,后期我们会持续为大家带来更多的技术专题。
《运维达尔文: SRE 的自动化演进》
http://blog.dataman-inc.com/shurenyun-sre-259/
《 SRE 系列教程 | 基于时间序列数据的监控实践》
http://blog.dataman-inc.com/shurenyun-sre-207/
《 SRE 工程实践 | 基于时间序列数据的报警是一种怎样的体验?》
http://blog.dataman-inc.com/shurenyun-sre-256/
随着 DevOps 和 SRE 在国内技术圈的热议,越来越多的思考聚焦于这两个概念到底是什么样的关系。正如数人云 CTO 肖德时在 Gitchat 上回答的:“之所有此一问,必然是两者之间有很多共同点。”
首先 DevOps 和 SRE 都重视自动化,拒绝手工劳动。 两者也都是利用软件工程手段执行运维任务等等。我们可以认为 DevOps 是 SRE 核心理念的普适版,可以用于更广范围内的组织结构、管理结构和人员安排, SRE 可以看做是 DevOps 模型在某种组织结构中的具体实践。为了让大家对 DevOps 和 SRE 的异同有更深入的认识我们强烈推荐下面两篇文章,参考书都给你们找好了,还怕不过关?
《 DevOps :谁说我只是自动化工具?》
http://blog.dataman-inc.com/shurenyun-docker-202/
《 DevOps 读书清单:十本应该放入书架的经典》
1
xiaowangge 2017-03-13 18:54:39 +08:00 1
@Livid 推广帖
|