duanlian
V2EX  ›  DevOps

各位好,目前大多的互联网企业使用的服务器都是市面上的公有云服务,阿里云,腾讯云, ucloud 之类的,请问大家是如何解决云主机宕机及时收到通知的呢?

  •  
  •   duanlian · Feb 16, 2019 · 2167 views
    This topic created in 2641 days ago, the information mentioned may be changed or developed.
    尤其是半夜和节假日,没有值班人员的时候,非常头痛,单纯的依靠云厂商的通知,一般不会第一时间通知到,会有一定的延迟;自己处理的方式是用的 zabbix 的 fping 服务,可靠性也不是好,尤其是海外的云主机,网络抖动,GFW 之类的回有影响,产生误报。求解决方案。
    14 replies    2019-05-10 16:52:08 +08:00
    yuhr123
        1
    yuhr123  
       Feb 16, 2019 via iPhone
    想到了几个关键词供参考:热备,负载均衡,CDN 这些公有云都有方案
    wongskay
        2
    wongskay  
       Feb 16, 2019 via iPhone
    我也有该需求,例如网站挂了怎么第一时间知道。
    Athrob
        3
    Athrob  
       Feb 16, 2019 via iPhone
    做个程序放服务器,定时上报我还活着。超几次没报就认为死了。
    dazhangpan
        4
    dazhangpan  
       Feb 16, 2019
    感觉 V2EX 的工单比他们的通知邮件要快,不如做个监控 V 站的脚本?
    duanlian
        5
    duanlian  
    OP
       Feb 16, 2019
    @wongskay 网站这个还是比较好办的,监控首页状态,监控关键的业务接口都行;
    duanlian
        6
    duanlian  
    OP
       Feb 16, 2019
    @dazhangpan 每次延迟收到都要命,晚上睡一觉几个小时了。。。
    opengps
        7
    opengps  
       Feb 16, 2019
    说下具体服务看看,我感觉各种云监控已经够用了,我现在用的是阿里云的云监控。也有自己写的 tcp 服务器程序成品支持不够理想,就自己有特定的请求返回,自己做的外网监控端
    luozic
        8
    luozic  
       Feb 16, 2019 via iPhone
    冗余,无论是云还是托管还是啥,恰当的冗余是可靠性第一定律。 实际生活里面的工程也是一样。
    AlexaZhou
        9
    AlexaZhou  
       Feb 16, 2019
    之前用过云智慧的监控宝服务,很好用,专门针对这种需求,网站挂了让你比老板先知道,推荐一把
    wongskay
        10
    wongskay  
       Feb 16, 2019 via iPhone
    @AlexaZhou 网站挂了第一时间比老板知道真的很重要。。。。
    raynor2011
        11
    raynor2011  
       Feb 17, 2019 via Android
    高可用,挂一台机器不影响正常运行
    theks
        12
    theks  
       Feb 17, 2019 via Android
    机器挂掉前是有预兆的,比如 cpu、内存使用率,网络流量等。
    在用阿里云,自带云监控功能,可以监控 ecs、rds 系统资源到达某个阈值就报警。另外有网站监控,定时访问某个网站,如果多个监测点同时都访问不了就报警。
    阿里云的云监控每月有 1000 条免费报警短信的额度,够用了。
    wkl17
        13
    wkl17  
       Feb 18, 2019
    @theks 只在阿里注册过域名,是否也有免费 1000 条报警短信?还是必须有开通 ECS 等才有?
    ethsol
        14
    ethsol  
       May 10, 2019
    就算你各种监控都做好,怎么保证你晚上睡觉时候收到一条短信就会醒,很早以前某领导下令写过一个 app,如果服务器不上报消息就判断宕机,然后 app 会响,尼玛各种折腾误报,不堪回首。。。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1009 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 19:41 · PVG 03:41 · LAX 12:41 · JFK 15:41
    ♥ Do have faith in what you're doing.