This topic created in 4173 days ago, the information mentioned may be changed or developed.
今天刚到公司, 就有人通知说主页挂了, 进服务器启动了, 查了下日志, 发现
OSError: [Errno 28] No space left on device: '/tmp/tmp3_Jyjd'
服务都是用supervisor在跑的, 遇到这种问题该如何才能做好监控工作呢, 尽量保证服务不挂, 谢谢大家了
7 replies • 2014-12-11 12:50:29 +08:00
 |
|
1
saber000 Dec 11, 2014
简单的话我在我树莓派跑的服务用upstart自动重启+crontab定时监控并告警
|
 |
|
2
Livid Dec 11, 2014 via iPhone
外部监控可以用 Pingdom,监控宝,AWS 这些来看服务是否可用。
内部状态的话,可以用 New Relic 监控 CPU,磁盘,内存和网络等。
|
 |
|
4
yangxin0 Dec 11, 2014
用erlang/otp吧完善的监督重启机制
|
 |
|
5
lincanbin Dec 11, 2014
内部的话可以添加定时任务,定时wget主页,然后如果出错就restart service。
|
 |
|
6
BackBox Dec 11, 2014
监控包 New Relic monit 就够了。
|
 |
|
7
weegc Dec 11, 2014
运行服务监控的话,比如nginx、php之类的, 自己写的watchdog.sh 监控,报错退出了,自动重启服务 监控服务器cpu,disk,memory状态的话,很多开源的东东可以使用,不过我还没有用上这方面的东东
|