项目采用 consul 作为注册中心, 服务跑了一段时间后,某些服务就从注册中心消失,无法被其他服务访问,但服务本身还是正常的,内部直接 /actuator/health 返回的也是 UP
消失基本都是在服务接收到大量外部连接的时候。
该怎么排查这个问题,目前没有日志看到服务注册断开。
1
tms 2021-07-16 16:48:31 +08:00
看 consul 的健康检查日志
|
2
fkdog 2021-07-16 16:50:15 +08:00
info 里没记录那就临时切到 debug 级别看 warning 和 debug 信息.
|
3
th00000 2021-07-16 17:25:37 +08:00
线上跑了好久了 没出过你这个问题, Consul 如果健康检查通过应该不会出现摘掉服务的情况
你访问 health check api 没问题的时间不代表 Consul 访问的时候没问题 服务流量大的时候 health check api 可能来不及响应 你应当先查服务的监控, 看当时 CPU 占用是怎样的, JVM 是怎样的, GC 有没有问题, 有没有 STW 时间过长, 超过了 health check 的 timeout |
4
xuanbg 2021-07-17 07:35:56 +08:00
应该是你的健康检查某些时候没有响应造成的。我遇到过的是邮件服务的健康检查超时造成服务间歇性下线,后来在配置里面把邮件的健康检查 disable 就好了。
|
5
jimmyismagic OP |
6
th00000 2021-07-19 10:30:44 +08:00
@jimmyismagic #5 关于 Consul health check 超时后的重连接, 建议你阅读以下官方文档, 应该都有写
关于 4 楼的 disable health check 的做法, 在线上环境是万万不可的 |
7
tms 2021-07-19 18:55:22 +08:00
@jimmyismagic consul 端临时切换到 debug 的 log 级别才能看到 health check 日志。不过根据你说的,估计是代码逻辑造成的问题了,按理来说 health check api 不应该因为其他业务逻辑时间长来不及响应。
|
8
jimmyismagic OP @tms 已知的问题就是连接过多,一旦过多,就会注册丢失,但是问题是,丢失之后就不会有其他连接进来,负载也变小,但就是无法注册上
|
9
NCE 2021-07-19 19:18:56 +08:00
看下调用方是否有超时熔断策略。
我猜测你的服务没有做压力测试就上线了。 |
10
leeyuzhe 2021-07-20 13:26:24 +08:00
检查下是不是有这个配置项 health-check-critical-timeout: 60s
|
11
tms 2021-07-20 21:50:00 +08:00
@jimmyismagic 首先确认服务是否有主动重新注册,再看 consul 是否拒绝了注册。
|