数人云:最近两天这个天呀,真是出门 5 分钟,流汗 2 小时,小数保持冷静,盘点 5 种 DevOps 事件管理工具,一起来消消暑吧:)
最少的 BUG,最优质的代码是开发的终极目标。正如 Arkenea 的创始人 Rahul Varshneya 在其文章中描述 NASA 的开发和处理软件:“所有应用都有 BUG。”尽管有成百上千的人在规划、研发、测试 NASA 的代码,但负责宇航员生活的应用仍然存在 BUG。
DevOps 的目标——确保在生产中能够检测到的每一个 BUG,并根据其应用功能或者可用性的影响度来分级、及时处理。由 DevOps 处理的生产问题称为“事件”。
1998 年,NASA 发射火星气候探测器,作为火星极地登录计划的一部分。1999 年 9 月 23 日,轨道飞行器失联,一队技术人员花费 24 个小时以上的时间,尝试深空网络天线用以恢复联系。若只知道其在几百万英里以外,但不知确切位置,该如何解决此问题?
NASA 发布的 Twitter:
尽管运维团队一直在遵循着 ITIL 原则,但以现在来说略显过时。随着应用发布时间缩短,标准的 SLA 用于宕机或缺陷辨识度为 0,DevOps 和事件管理过程必须做出相应调整。事件需分类和优先排序,最好有自动服务,与相关的程序员和测试进行合作分配处理,在一天内给出解决方案。
面向客户的 DevOps 人员应 24 小时跨时区覆盖,每个 SLA 漏洞都要触发升级,并迅速涉及到更高技术层。为了让应用始终运行、正确处理事件、符合标准,需要事件管理工具,本文将列举 5 个:
PagerDuty 是自动化处理的系统,可以将在生产维护上投入的时间精力降低到最低。该工具通过应用环境中的所有系统对告警和时间进行排序,并洞察其中的关联进行分组。减少了同一事件连续告警的问题,有助于将焦点放在实际时间上,提高解决效率。PagerDuty 允许用户定制告警,且向相关人员发送信息,帮助解决所有类型的问题。
该工具收集信息从数据库中读取模式,助力自动升级,根据应用特定区域的前几次事件,给出基本决策。为 DevOps 管理人员提供所有事件及状态的实时视图。作为实时仪表板的一部分,事件能够相关联,管理人员可以进行深入研究,对事件的生命周期和路由做出对策。
该工具提供的分析和报告能跟踪系统性能趋势并分析故障根源。还可监控不同团队的工作效率,为未来事件优化处理生命周期。PagerDuty 最近推出了一款手机应用,用户可以在任何时间、地点管理和监控生产事件。PagerDuty 也集成了 150 多个监控、部署的工具,因此在核心系统中很容易实现并立即查看结果。
OpsGenie 是一款在云端部署告警和监控的应用,路由、通知规则和移动效率是 OpsGenie 的特色。使用该工具第一步要为告警和通知路由定义时间表,用于处理不同地区团队下班后的事件,且能发起适当的决策操作。
OpsGenie 提供电话服务来跟进未处理的告警,保持每个管理员的沟通和响应,并允许其根据事件的严重性和数量进行分级告警。OpsGenie 的手机客户端可以做出相应的操作和决策。
生命周期和通知列表对每个告警都有详细的记录文档,且可以后期处理,用来改进流程中的问题和提高效率。从易维护的角度看,使用此工具的企业能将通知管理整合到分组里,可以设置细节和偏好,防止数据重复,减少管理负担。
VictorOps 将自己描述为 PagerDutry 的另一种选择,是一个实时管理事件的平台,可以对突发事件作出响应,预知未来事件作出准备。事件告警根据一个调用计划发送,也可以被动态重定向。告警是动态、可配置的,因此能够被修改为包含服务日志的链接,或任何人都可以遵循的解决方案。利用与其他工具的集成,VictorOps 构建了一个“时间轴”,显示整个生态系统的信息,即可轻松调查事件,或与其他事件关联。
VictorOps 还引入了 Transmogrifier,允许定制从告警到事件流的所有内容,使得事件管理更为简单,该工具内置聊天功能,有助于团队协作,快速解决问题。
Jira 服务平台是 Jira 组合的一部分,帮助开发和 DevOps 以最好的方式构建、发布软件。服务为部门认为服务是最耗时的,因此该工具提供了一种自助服务模块,其中包含有用信息的知识库,用户可以在向客户服务代理请求帮助之前自行查询。还可以应用于 ITIL 驱动的组织和使用较新的事件管理方法,通过集成问题和变更管理模块,并为生产中的每一种事件生成详细的工作流程。
Jira 也提供了大量的 API,允许和任何 CRM 或票务管理系统简单集成。因此 Jira 能让企业更便于编辑服务平台数据中心,DevOps 关注关键任务和企业能够快速使用服务台,服务台能让企业编辑服务台数据中心,DevOps 可以关注任务关键服务和容灾计划。
FreshService 是一站式 ITIL 软件,为整个 IT 运营部门提供解决方案。其事件管理模块与不同的通道进行通信,使用电话、聊天、甚至电子邮件报告新的事件。每一个事件都被优先处理,并且提供相关规则,自动路由到合适的代理或团队。事件信息会被存储,分析,一旦解决,可以作为以后发生类似事件的方案建议。该工具有能力根据响应事件自动将事件分配给不同的团队。
FreshService 还提供了一个诊断模块,允许用户或客户提交方案进行诊断,并给出反馈,团队根据反馈进行改进。FreshService 了解重大事件对不同企业的影响,在此基础上,建立了一个只处理重大事件的模块,此模块有独立的进程、元数据、升级方法和更高的管理参与接口。让影响广泛的、跨部门的事件能够快速有效处理。
对事件 SLA 的正确的响应、及时响应是目标,需要深入了解应用的前后端,高端面向服务和正确的工具。本文所讨论的工具可以作为处理过程的基础设施,对相关人员进行支持,提高效率和问题改进。
正如没有完美的应用一样,也没有完美的事件管理工具。本文概述了 5 个主要的事件管理工具,如何处理生产服务中断并尝试解决。企业首先需要决定标准和服务目标,根据特性和功能选择工具。
以下是这些事件管理工具之间的差异:
原文作者:Daniel Berman
原文链接: https://logz.io/blog/incident-management-systems/?utm_source=tuicool&utm_medium=referral