最近在维护一个游戏的服务器,用的金山云。4台云主机:4核心,8G内存。mysql使用金山云的关系型数据库,memcached使用自己编译的版本。其中一台运行nginx反向代理到其他机器php-fpm 9000端口。
就在22:00其中2台机器(仅仅运行了php-fpm)的Disk I/O is overloaded on xxx
事后查看zabbix监控出现告警的时间段:
- nginx的rps(请求数)降低
- 数据库qps降低
- 另外2台机器(同样运行了php-fpm,其中一台有nginx,还有一个memcached)负载及I/O正常。
- 出问题的2台机器,流量也降低了。仔细看时间点,负载在php-fpm日志WARNING: [pool xxx] seems busy出现前。
个人感觉不应该是php-fpm引起I/O is overloaded,但出问题的2台机器就是只运行了php-fpm。会不会是金山的云平台出现了问题,但这4台机器也就2台出问题。怎么才能找到原因呢?
