1、登录mongodb服务器,习惯性的输入uptime free -m df -h 命令,没有问题。

2、查看文件描述符数 tail -n 2 /etc/security/limits.conf , 没有问题。

3、查看mongodb最大连接数 db.serverStatus().connections 没问题。

4、查看系统日志 less /var/log/messages 没问题。

5、查看zabbix监控发现mongodb的一个复制集 cpu load 飙到4点多。

6、查看mongodb复制集中的计划任务 cat /var/spool/cron/root 发现1点15分有备份,问题找到了。
原因应该是mongodb备份占用了大量的CPU时间,正好这时程序也有定时任务大量请求,导致一部分连接连不上报错。
最后跟研发沟通修改备份时间解决问题。
