V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
9hills
V2EX  ›  DevOps

[SREcon18 Americas] 我的推荐清单(运维、SRE、DevOps、分布式系统相关)

  •  
  •   9hills · 2018-06-02 20:05:36 +08:00 · 705 次点击
    这是一个创建于 2351 天前的主题,其中的信息可能已经有所发展或是发生改变。

    SREcon18 Americas 最近放出了视频资料,我整理后,觉得值得看的 Talk 如下:

    听力不好的同学(比如我),推荐打开 Youtube 自动生成的英文字幕。
    部分主题没有被列入,选题和推荐指数纯属个人口味偏好,没有任何原因。

    1. [Workshop] Containers from Scratch ⭐️⭐️⭐️⭐️

    Workshop 是动手环节,这个主题是让你从头实现容器,对理解容器的原理很有帮助。

    2. [Workshop] How to Build a Distributed System in 3 Hours ⭐️⭐️⭐️

    这个 Workshop 来自 Google,让你在三小时内设计一个 N+2 的多地域分布式系统,难度系数很高。建议学过 MIT 6.824 后再来看这个。

    3. [Workshop] Ansible for SRE Teams ⭐️⭐️⭐️

    就是一个 Ansible 实战指南,对 Ansible 感兴趣的可以了解下:https://github.com/Eronarn/deploying-applications-with-ansible

    从我个人的角度,我觉得中小规模的公司,使用 Ansible 自动化是一个相当不错的选择。

    4. [Workshop]Tech Writing 101 for SREs ⭐️⭐️

    如何写技术文章,如故障报告、文档之类,参考 https://lisafc.github.io/tw101-reading/ ,不过这种文章得翻译下才行。

    5. [Workshop]Chaos Engineering Bootcamp ⭐️⭐️

    Netflix 的 Chaos Engineering 也算是一个招牌了,就和 Baidu 的 AIOps 一样,有兴趣的可以看看。

    6. If You Don ’ t Know Where You ’ re Going, It Doesn ’ t Matter How Fast You Get There ⭐️⭐️⭐️

    偏向 IT 团队管理,介绍怎么评价效能,设定目标等。比如对变更,他提出了四个指标:部署频率应该 on demand、全量部署耗时 < 1h、MTTR < 1h、变更导致服务异常率 < 15%。

    对于需要带领一个运维团队的同学,建议观看。

    7. Stable and Accurate Health-Checking of Horizontally-Scaled Services ⭐️⭐️⭐️⭐️

    对大规模水平扩展的服务,怎么做稳定而又精确的健康检查?做过相关事情的同学应该有所体会,这个问题并没有看起来那么简单。推荐有类似困扰或对分布式系统监控有兴趣的同学了解下。

    8. Don ’ t Ever Change! Are Immutable Deployments Really Simpler, Faster, and Safer? ⭐️⭐️⭐️

    最早的服务部署,基本都是原地更新(增量或者全量),而在容器化时代,部署方式变成了创建-销毁-重新创建 模式,容器部署后不再改变,只有销毁重建。所以题目才说现在是 Immutable Deployments,但是这种部署方式真的可以更加简单、快速和安全么?

    9. Lessons Learned from Our Main Database Migrations at Facebook ⭐️⭐️

    用 Facebook 自己的经历推荐他们的 MyRocks (需要翻墙),基于 RocksDB 引擎的 MySQL。对分布式的关系数据库有兴趣的,可以看看。

    10. Leveraging Multiple Regions to Improve Site Reliability: Lessons Learned from Jet.com ⭐️⭐️⭐️

    多地域实践经验总结,比较实用。

    11. Lessons Learned from Five Years of Multi-Cloud at PagerDuty ⭐️⭐️

    PageDuty 的 Multi-Cloud 实践,有兴趣的可以看。

    12. Help Protect Your Data Centers with Safety Constraints ⭐️⭐️⭐️⭐️⭐️

    讲述了 Google 如何控制变更引入的风险,思路比较新颖,提出了使用一个 sanity check API 来对变更进行管控。

    13. Real World SLOs and SLIs: A Deep Dive ⭐️⭐️

    讲述了一些现实场景下的 SLO 和 SLI 的设定的例子,对不知道怎么给自己服务设定的,可以参考下。

    14. Learning at Scale Is Hard! Outage Pattern Analysis and Dirty Data ⭐️⭐️

    使用机器学习的方法进行故障诊断的一些探索性的想法。

    15. Containerization War Stories ⭐️

    Pinterest 容器化碰到的一些坑。

    16. Monitoring DNS with Open-Source Solutions ⭐️⭐️

    其实就是对开源监控系统的一个评测。

    • Data Collection: Packetbeat, Collectd, DSC, Fievel, and GoPassiveDNS
    • DB engines: Prometheus, Druid, ClickHouse, InfluxDB, ElasticSearch, and OpenTSDB
    • Visualization: Kibana, Grafana, and Graphite Web

    17. Security as a Service ⭐️

    安全即服务,嘛我不是安全团队的,不感兴趣。

    18. "Capacity Prediction" instead of "Capacity Planning": How Uber Uses ML to Accurately Forecast Resource Utilization ⭐️⭐️⭐️

    Uber 使用机器学习进行“容量预测”,取代以前的“容量规划”的一些探索。容量很复杂,这个仅仅是一个探索方向。

    19. Distributed Tracing, Lessons Learned ⭐️

    分布式 Trace 的一些心得。

    20. Know Thy Enemy: How to Prioritize and Communicate Risks ⭐️⭐️⭐️

    认识和管理风险,这个是 Google CRE 团队的入门文章。看过 《 Google SRE 》的就会发现大部分书里都提过。

    21. Building Shopify's PaaS on Kubernetes ⭐️

    K8s 实战经验<_<

    22. Automatic Metric Screening for Service Diagnosis ⭐️⭐️⭐️

    陈老师的故障根因诊断!

    23. Approaching the Unacceptable Workload Boundary ⭐️⭐️

    关于容量和工作负载的文章,如果你对性能瓶颈、压测感兴趣,可以看看。

    2 条回复    2018-07-02 16:27:26 +08:00
    Etuloser
        1
    Etuloser  
       2018-06-06 11:04:32 +08:00
    感谢分享,mark
    kylechou94
        2
    kylechou94  
       2018-07-02 16:27:26 +08:00
    谢谢分享
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2537 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:16 · PVG 23:16 · LAX 07:16 · JFK 10:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.