现在遇到的问题:
现在业务有 15 台服务器做负载均衡,nginx 轮询方案。其中有 3 台服务器,对 kafka 集群、mysql 、redis 的连接数,要大于其他的服务器。造成这 3 台的接口响应时长比较长。
服务器配置相同( 8 核 8G );
跑的项目相同:
php 语言,hyperf2.0 框架,接口整体 qps 目前在 9000 左右,单机负载 qps600 左右。
服务器承载的 qps 相近,都是 600 左右。
新建服务器时,用的同一个镜像,但是都进行过一些 tcp 参数调优:
echo '1200'> /proc/sys/net/ipv4/tcp_keepalive_time
echo '8192'> /proc/sys/net/ipv4/tcp_max_syn_backlog
echo '10000'> /proc/sys/net/ipv4/tcp_max_tw_buckets
echo '1'> /proc/sys/net/ipv4/tcp_tw_reuse
echo '30'> /proc/sys/net/ipv4/tcp_fin_timeout
echo '1024 65000'> /proc/sys/net/ipv4/ip_local_port_range
echo '131072' > /proc/sys/net/ipv4/tcp_max_orphans
echo '383652 511537 767304' > /proc/sys/net/ipv4/tcp_mem
echo '32768' > /proc/sys/net/ipv4/tcp_max_orphans
echo '93723 124966 187446'> /proc/sys/net/ipv4/tcp_mem
下面是两台服务器连接数的情况:
#正常的服务器
941 10.10.45.199
357 10.10.55.43
356 10.10.28.148
353 10.10.85.51
320 10.10.59.7
#异常的服务器
771 10.10.45.199
652 10.10.55.43
651 10.10.28.148
649 10.10.85.51
442 10.10.58.73
# 45.199 是 nginx 服务器;排在前 2 、3 、4 的是 Kafka 集群;可见异常的服务器连接数比正常的服务器要多
疑问:
- 有没有哪位大佬知道可能存在的原因是什么呢?并且如何解决呢?
TOP命令观察
左边为正常服务器,右边为异常服务器。异常服务器的php进程cpu使用率明显比其他的高。