geew
V2EX  ›  DevOps

线上的服务 怎样才能保证做到不挂呢? 监控, 通知机制之类的

  •  
  •   geew · Dec 11, 2014 · 4853 views
    This topic created in 4173 days ago, the information mentioned may be changed or developed.
    今天刚到公司, 就有人通知说主页挂了, 进服务器启动了, 查了下日志, 发现
    OSError: [Errno 28] No space left on device: '/tmp/tmp3_Jyjd'

    服务都是用supervisor在跑的, 遇到这种问题该如何才能做好监控工作呢, 尽量保证服务不挂, 谢谢大家了
    7 replies    2014-12-11 12:50:29 +08:00
    saber000
        1
    saber000  
       Dec 11, 2014
    简单的话我在我树莓派跑的服务用upstart自动重启+crontab定时监控并告警
    Livid
        2
    Livid  
    MOD
    PRO
       Dec 11, 2014 via iPhone
    外部监控可以用 Pingdom,监控宝,AWS 这些来看服务是否可用。

    内部状态的话,可以用 New Relic 监控 CPU,磁盘,内存和网络等。
    hging
        3
    hging  
       Dec 11, 2014
    @Livid newrelic监控程序也相当不错.
    yangxin0
        4
    yangxin0  
       Dec 11, 2014
    用erlang/otp吧完善的监督重启机制
    lincanbin
        5
    lincanbin  
       Dec 11, 2014
    内部的话可以添加定时任务,定时wget主页,然后如果出错就restart service。
    BackBox
        6
    BackBox  
       Dec 11, 2014
    监控包 New Relic monit 就够了。
    weegc
        7
    weegc  
       Dec 11, 2014
    运行服务监控的话,比如nginx、php之类的,自己写的watchdog.sh 监控,报错退出了,自动重启服务
    监控服务器cpu,disk,memory状态的话,很多开源的东东可以使用,不过我还没有用上这方面的东东
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1522 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 16:48 · PVG 00:48 · LAX 09:48 · JFK 12:48
    ♥ Do have faith in what you're doing.