1
ytf4425 2014-12-20 20:29:09 +08:00
有API么可以考虑给我的网站加个
|
2
Livid MOD OP 我觉得看这类服务最有趣的方面就是他们如何判定一台机器 down 和 up 的逻辑。
想清楚这背后的逻辑的话,自己实现一个也是很简单的,难的是在运维上保证这样的东西不会挂。 |
3
spance 2014-12-20 20:52:17 +08:00
这是基于icmp回应的,只能检测网络是否在线是否死机之类。
对于一个app server需要做应用层检测,往往app daemon进程挂掉是高于服务器挂掉的。 |
5
spance 2014-12-20 21:11:43 +08:00
@hjc4869 是的,azure的网关禁止了icmp,而且还是nat,基于简单的icmp是不可行的。
阿里监控其实还不错,有不少的应用层监控,还有直接tcp/udp方法,还是不错的。 |
6
9hills 2014-12-20 22:43:32 +08:00 1
基于ICMP的判断是不准确的,实际使用的时候,一般会加上22端口的检查来综合判断机器存活。
应用层另谈。 P.S. 说句题外话,厂内的监控是这么分的: 采集项: ——机器(不可定制): ————机器存活、22端口、CPU/MEM/DISK/RAID/NET/..... 各种参数 ——服务(可定制): ————进程信息,日志信息提取(正则),端口监控信息等等 监控策略: ——对各种采集项,设定策略,可以对各种采集项之间进行逻辑运算,达到条件则触发报警。同时也可以设定一些比如N次中有M次达到条件,才触发报警;报警之间优先关系,比如死机报警会覆盖掉其他报警,避免死机时出现大量报警 等等高级规则 报警策略: ——定制各种报警策略(FATAL/ERROR/INFO等),包含电话/短信/邮件的通知人设定,报警升级设定(超过X时间后报警持续则升级到下一批报警接收人),最大报警次数,报警静默时间等等 不知道商业报警服务有没有类似的。。 |
9
typcn 2014-12-21 03:03:37 +08:00 via iPad
|