V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zhoudaiyu
V2EX  ›  问与答

运维的 V2ER,你们一天大概收多少告警短信/邮件?

  •  
  •   zhoudaiyu · 2018-12-30 09:43:35 +08:00 via iPhone · 4936 次点击
    这是一个创建于 2155 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在我大概一天收 600-800 个,故障时候 1000 多个告警短信,邮件是 cachecloud 和 jenkins 发的,一条 1000 多封。感觉快烦死了。
    32 条回复    2018-12-31 12:40:16 +08:00
    ckzx
        1
    ckzx  
       2018-12-30 09:45:24 +08:00 via Android
    这个好像你不处理的锅啊,或者把限制调高点
    wtks1
        2
    wtks1  
       2018-12-30 09:45:48 +08:00 via Android
    我这边只收数据库警报,一天怎么也得几十封吧
    swulling
        3
    swulling  
       2018-12-30 09:48:18 +08:00 via iPhone
    不处理不接收
    corvofeng
        4
    corvofeng  
       2018-12-30 09:57:34 +08:00 via Android
    几百的警报代码写的也太有问题了吧。 我这边 1 天也就几条; 出了问题,报警多的时候每分钟 1 条, 这样处理才有效啊
    zhoudaiyu
        5
    zhoudaiyu  
    OP
       2018-12-30 10:11:57 +08:00 via iPhone
    @ckzx 好多告警是前一分钟发了,后一分钟就恢复了,贼烦

    @wtks1 DB 的没那么多吧?要是 DB 告警多了就坏了

    @swulling 老哥是运维吗

    @corvofeng 总是不停的发根本看不过来,不知道领导在想什么
    hugee
        6
    hugee  
       2018-12-30 10:30:52 +08:00 via Android   ❤️ 5
    说明你的监控写得有问题,报警这么多等于没有报警。
    annoy1309
        7
    annoy1309  
       2018-12-30 10:31:57 +08:00
    那就是你们告警策略没做好
    按你的描述
    好多告警是前一分钟发了,后一分钟就恢复了,贼烦
    那你们就应该设置阈值
    比如服务连续不可用超过 3 分钟,告警
    yidinghe
        8
    yidinghe  
       2018-12-30 10:34:08 +08:00 via Android
    告警有两种,一种是阈值告警,比如内存使用超过 90%;一种是失败告警,比如某个事务回滚。对于很快可以恢复的情况,采用重试的方式处理,重试若干次失败再来告警。否则会产生大量的无效告警。楼主遇到的就是大量无效告警,使得告警机制没有正常发挥作用。
    zhoudaiyu
        9
    zhoudaiyu  
    OP
       2018-12-30 10:35:13 +08:00 via iPhone
    @annoy1309
    @yidinghe
    现在都是至少连续 3 次 有的连续 10 次
    yidinghe
        10
    yidinghe  
       2018-12-30 10:37:17 +08:00 via Android
    那要把底层的问题解决了。
    CallMeReznov
        11
    CallMeReznov  
       2018-12-30 10:42:02 +08:00
    我的 zabbix 都不设置报警.因为我所有爆炸的点都设置了自动脚本
    zabbix 触发器一旦触发就自动运行.然后就等待 zabbix 的黄条变绿就好了

    总部在我这里有部分对象存储服务器,因为开发的问题导致对象存储网关如果被写挂
    让总部的人直接在服务器里写了个 RE 脚本完成后发邮件.

    所以一天也就收几封~
    swulling
        12
    swulling  
       2018-12-30 10:49:02 +08:00 via iPhone
    @zhoudaiyu 嗯,所以是报警策略问题。像你这种,应该加一个持续时间的判定,持续超过 xx min 再报
    CallMeReznov
        13
    CallMeReznov  
       2018-12-30 10:53:23 +08:00
    想到 2 点
    1.楼主得想办法优化报警信息,如楼上各位说的故障时间,阀值等
    2.既然有 jenkins 肯定是有很多自动化任务了,那既然都是自动化任务了为什么还有那么多爆炸信息?那肯定得从优化自动化任务上面的事啊,执行就出错,我还要你自动化干嘛?我手动反而不更稳定?
    wtks1
        14
    wtks1  
       2018-12-30 11:19:20 +08:00 via Android
    @zhoudaiyu 其实大多数只是等待数量高,没办法做警告的不是我们的人,订的阈值不能改动,每次也就超出几个而且也就七点多那一会,就只能每天硬接这批短信了
    binux
        15
    binux  
       2018-12-30 11:28:46 +08:00 via Android
    不需要人工处理的报警不要抱,人不看的日志不要打。
    zhoudaiyu
        16
    zhoudaiyu  
    OP
       2018-12-30 11:54:20 +08:00 via iPhone
    @CallMeReznov Jenkins 在我们这只是上线用,BUILD 的时候 Build 完了,Build 失败发邮件,几乎没有什么自动化的
    zhoudaiyu
        17
    zhoudaiyu  
    OP
       2018-12-30 11:56:20 +08:00 via iPhone
    @CallMeReznov 您敢相信我们这磁盘空间的问题都要人来干预吗?人去清日志什么的。只是 0 点的时候有个 gzip 的日志压缩脚本,但是还是有 N 多告警要自己处理。
    zhoudaiyu
        18
    zhoudaiyu  
    OP
       2018-12-30 11:57:06 +08:00 via iPhone
    @wtks1 天天几百条,快崩溃了。
    zhoudaiyu
        19
    zhoudaiyu  
    OP
       2018-12-30 12:00:23 +08:00 via iPhone
    @swulling FALCON 有连续超过阈值 n 次才会报警,CAT 的我不太清楚,因为不是我配的,但是应该也有类似得设置。然而即便是这样,也是疯狂报警。而且有些 Q 的和关键业务的业务告警必须马上发出来。感觉问题就是这个阈值是死的,要是有人工智能的技术能自动设置阈值就好了。
    sunnyadamm
        20
    sunnyadamm  
       2018-12-30 14:02:27 +08:00 via Android
    我。。。这里每天大概 160 万告警😂😂😂
    limbo0
        21
    limbo0  
       2018-12-30 14:18:06 +08:00 via Android
    @zhoudaiyu 说明你们的报警有问题啊,很多重要报警容易淹没,建议梳理一下
    zhoudaiyu
        22
    zhoudaiyu  
    OP
       2018-12-30 14:28:26 +08:00 via iPhone
    @sunnyadamm 这和不报警有啥区别啊
    @limbo0 是得捋一下了,太乱,而且好多阈值都不带调整的
    gy911201
        23
    gy911201  
       2018-12-30 14:31:33 +08:00
    每天的报警邮件是 0
    但是一旦有一封…………那就要干活咯…
    你们每天几千封报警看的过来吗?会麻木的吧……
    真的有事故也会略过去的……
    zhoudaiyu
        24
    zhoudaiyu  
    OP
       2018-12-30 14:48:39 +08:00
    @gy911201 而且我这个还是不用处理工单的情况下 处理工单的估计会更爽吧。。
    loveCoding
        25
    loveCoding  
       2018-12-30 15:59:11 +08:00
    @sunnyadamm 牛牪犇逼
    sunnyadamm
        26
    sunnyadamm  
       2018-12-30 16:52:40 +08:00 via Android
    @zhoudaiyu 全省所有设备的告警,没办法,设备数量在那放着,少不了
    defunct9
        27
    defunct9  
       2018-12-30 20:45:35 +08:00 via iPhone
    5000 多,忽略,假装看不到
    akira
        28
    akira  
       2018-12-30 21:38:36 +08:00
    什么都告警等于没告警
    sean328
        29
    sean328  
       2018-12-31 00:34:03 +08:00
    我是开发,一天收到的光我们系统的数据库告警、日志告警、业务告警等加起来也都要上百条了,运维同事的话所有系统加起来怎么着也有一千条朝上了
    dot2017
        30
    dot2017  
       2018-12-31 01:48:57 +08:00
    你们发短信的啊
    有钱,我们只敢发邮件
    zhoudaiyu
        31
    zhoudaiyu  
    OP
       2018-12-31 07:35:44 +08:00 via iPhone
    @sean328 为什么开发要收这么多鸭 收自己业务的告警不得了
    @dot2017 现在也走钉钉了(还在观察,所以短信照发)
    @defunct9 假装看不到可还行 5000 也太多了吧
    javaluo
        32
    javaluo  
       2018-12-31 12:40:16 +08:00 via Android
    一个做产品的同事,有一次开发弄了一个脚本,没做好收了十几万 删了好几天
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2437 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:02 · PVG 00:02 · LAX 08:02 · JFK 11:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.