最近遇到问题如下:
- 不明原因 ssh 登不上( timeout ),服务器 http 接口返回 502 Bad gateway。
- 某个服务突然出现一大堆 redis 的连接错误 redigo: use of closed connection (反复检查了代码,有正确关闭 redis.Conn )。重启该服务又没问题了。
这些问题目前都没什么头绪,服务器的 CPU,Memory 这些常用的监控指标完全看不出来有问题。有大佬知道一套完事的监控方案吗?
最近遇到问题如下:
这些问题目前都没什么头绪,服务器的 CPU,Memory 这些常用的监控指标完全看不出来有问题。有大佬知道一套完事的监控方案吗?
1
blless Jan 16, 2019 via Android
连接数
|
2
ruandao Jan 16, 2019
2.
显然是 因为使用了已经关闭的连接。。。 |
3
ly4572615 Jan 16, 2019 连接数,内存占用,cpu 占用,服务进程存在与否,监听端口存在与否,外网网络延迟,磁盘占用,算了越说越多
|
4
houzhimeng Jan 16, 2019 slb (有效并发,活动并发连接,非活动,流量)
实例(常规项),内核优化 timeout 之类的 |
5
CivAx Jan 16, 2019 netstat 观察连接数
htop 观察 CPU 占用与 Load,并发暴涨应用可能会导致 CPU 出现线程阻塞( Kernel BUG: CPU Stuck ) dstat 观察磁盘读写 内存反而是你最不该关心的(如果你分配了 Swap 的话) |
6
byteli Jan 16, 2019 via Android
看描述是要监控特定端口的连接。以及在代码里多打日志
|
7
micean Jan 16, 2019
2. 中间有没有代理或者防火墙,如果有的话看看配置的默认超时时间
|