记一次生产环境CPU与内存双爆（都100%）的排查过程

原创 aisql 2024-01-19

1611

这个是事后的监控图
快中午的时候，被客户群消息淹没。反馈所有业务动作都变得很慢。

一、恢复故障

运维登陆服务器监控。发生一台数据库实例如上图，CPU与内存双双被打满
基于事故先恢复后排查的原则，运维kill了大量执行时间很长的SQL，Kill后，CPU与内存都迅速恢复，业务恢复正常。

一、排查故障原因

业务恢复正常后，就是排查工作了
先查询平台记录的慢SQL.由于CPU上升到100% 是在11:26分
慢SQL造成CPU100% 最不好查的就是哪几个SQL才是源头，不然很容易陷入先有鸡还是先有蛋的问题：即是慢SQL造成的cpu100% 还是由CPU100%后造成的慢SQL.
到底是哪个原因造成的。我常用的手法是重放执行，看到重放计划较安全后再重放执行。如果重放的时间和当初慢SQL时间较大出入。那一般是CPU升到100后造成的慢SQL,反之就是需要优化的。

即使排查了一大堆需要优化的SQL,那怎么能找到最先优化的呢？我主要从下面开始排查

1、我首先去慢查询日志中查 26分以前的慢SQL,看执行时间与次数都还较正常，凭经验判断不会造成CPU与内存打满

2、然后我又抽取一部份 11：26份之后的执行时间TOP10的慢SQL,在生产上重放了执行计划，根据计划评估后，我又直接重放了执行，发现都和慢SQL记录的时间差距很大，证明这些语句是受CPU 100%的影响。

3、由于KILL掉的QUERY不会在慢查询中，我再去查了一下KILL 历史