写了个监控报警系统,日志有错误就可以收到报警,但是报警太多又不想漏掉关键报警消息,请教下大家有什么好主意。 项目地址: https://github.com/AutohomeCorp/frostmourne
1
Kinnice 2022-06-03 17:12:39 +08:00 via Android
对你认为的关键的报警信息,进行单独提醒
比如 一般的走钉钉通知,紧急的走短信 /电话,超紧急的走物理硬件(电视里面的那种报警灯) |
2
gabon 2022-06-03 17:13:50 +08:00 via iPhone
error 分级别,p0 ,p1 ,p2 等等。p0 立刻报警; p1 的 suppress 几次就升级 p0 ,balabala
|
3
sadfQED2 2022-06-03 17:20:25 +08:00 via Android
先配置级别,就是楼上说的那样
再加报警规则,比如一小时内触发 3 次以内发邮件,触发 10 次发短信,触发 100 次打电话 |
4
anonymousar 2022-06-03 17:49:18 +08:00
报警只报失败率
|
5
janxin 2022-06-03 19:30:08 +08:00
合并报警信息(错误率报警)、优先级划分
|
6
Macolor21 2022-06-03 20:40:29 +08:00
醉翁之意不在酒
|
7
Garasu 2022-06-03 22:08:12 +08:00
所有消息都报警 = 不报警,警告分等级通知就好了。。。
|
8
zlowly 2022-06-03 23:16:27 +08:00
可以考虑告警收敛设计,最近在 51CTO 上看到篇《我们一起聊聊关于运维监控中告警收敛问题》看看有没帮助。
|
9
struggle001 2022-06-04 00:32:31 +08:00
我有个紧急告警钉钉群,一个日常告警钉钉群
紧急告警都是系统故障,必须要看的 日常告警都是无关紧要的,有可能要漂一眼的,漏掉也没关系 |
10
pengtdyd 2022-06-04 04:23:36 +08:00
紧急告警是主动推送的,日常告警是被动查看的,如果日常告警都主动推送那等于没有告警
|
11
i3x 2022-06-04 06:18:24 +08:00 via Android
debug info 到致命错误。我从造轮子的整个流程就贯穿。。。。。。平时 syslog 也保存 debug 。。。。是不是有病
各部分算是把 syslog 玩出花了。最终集中到 zabbix 处理逻辑。 @Kinnice 物理硬件没啥用,不一定在电脑旁。。。usb 那种三色灯也好,热敏打印机,寻呼机,自建 GSM LTE usbACM(自动传真,固定电话外呼)我都玩过,也就只能玩一下。除了装 x 毫无卵用。。。。。。好端端的玩寻呼机怕长辈说一大堆话,我都是偷偷玩的。。。。。电话或者短信外呼才能随时。。。。担心手机没电或者有骚扰电话一惊一乍?那就单独备一台 cdma 功能机或者老安卓机,给模块的卡号白名单。这就没错了。 cdma 理论上各种状态都辐射低,带来的显著优势就是省电。。。。同样的手机我试过一动不动的纯单待的待机方式。2014 年的安卓机啥配置我忘了 2g 运存的,cdma 单待 35 天,gsm5 天。完全不碰的情况下。。后来拿红米 note 试了下单 lte 和 gsm 待机对比,cdma 就不试了,时间太长了没那么多闲置的电信卡。。 发送也好,随身接收的卡也好,成本很重要。不请求 lte 联网的我就 1 元月租的虚拟运营商。纯发送方向用不上来显。随身接收的用大 3 元或者类似的有来显的,白名单用。 我给每个运维权限的伙伴发了一只专用安卓机。没有装任何软件,网也不连,通知声音每人一个特殊的自编提示音,轻柔,渐响。各自熟悉自己的声音,免得在外面碰上同通知音的人被吓一跳影响心情。 服务降级及以下都不通知,只电话通知需要立刻介入的。。接听后 tts 播放预定义的触发原因。按 1 记录为处理中。按 2 转给下一个。按 7 挨个群呼。。 不依赖需要网络或者需要 app 保活的避免丢失信息。也省得外部接口之类的可能会改动失效。 声音的冷门独特性很重要,避免惊吓。其次就是渐响轻柔。要是都用默认铃声认错了多尴尬。。 |