最终的解决办法为:
添加组合索引:
db.activityClient.ensureIndex( { “clientFlag” : 1, “createDate” : 1 } );
当时的现状:
早上8点多开始收到邮件警告:Processor load is too high on 192.168.xx.xx,最近应用服务器的tcp连接数每天早上按时暴涨
最近监控回顾:
从邮件历史记录看,从6月6日开始出现,但是6月6日的问题修复是自动的,持续不超过5分钟,没引起注意
6月7到9日放假,没有收到警告
6月10日收到,但是当时应用服务器也已经开始tcp连接数暴涨,就直接关注应用服务器的tcp连接数,没注意通过top看数据库服务器的CPU情况,后面也自动修复了。
6月11日,又收到邮件,应用服务器前一天已经调整端口范围,我也看了下应用的tcp连接数,发现7000多而已不是什么问题,就通过top看数据库的cpu情况,发现900%多的CPU消耗是mongodb进程的,猜测是mongodb有慢查询
定位问题
于是,百度了下如何分析mongodb占用CPU高的博客 ,找到命令:db.currentOp() 可以查看当前数据库正在执行的操作,马上登录mongodb数据执行该命令,发现很多并发的查询,都有重复出现的信息如下:
{
“desc” : “conn2260”,
“threadId” : “140212130453248”,
“connectionId” : 2260,
“client” : “192.168.25.197:62348”,
“active” : true,
“opid” : 42998110,
“secs_running” : 0,
“microsecs_running” : NumberLong(961874),
“op” : “command”,
“ns” : “cspt-prod.activityClient”,
“query” : {
“count” : “activityClient”,
“query” : {
“clientFlag” : “A784FD80-B597-11E8-A931-E402BD4D3D00”,
“createDate” : {
“$gte” : ISODate(“2019-06-10T16:00:00Z”)
}
},
“limit” : NumberLong(1)
},
“planSummary” : “COLLSCAN”,
“numYields” : 797,
“locks” : {
“Global” : “r”,
“Database” : “r”,
“Collection” : “r”
},
“waitingForLock” : false,
“lockStats” : {
“Global” : {
“acquireCount” : {
“r” : NumberLong(1596)
}
},
“Database” : {
“acquireCount” : {
“r” : NumberLong(798)
}
},
“Collection” : {
“acquireCount” : {
“r” : NumberLong(798)
}
}
}
}
],
“ok” : 1
}
猜测:应该是集合 cspt-prod.activityClient 上面没有组合索引 (clientFlag,createDate),试试加上索引看效果。
效果立竿见影
于是加上索引,果然,CPU立马降下来了!