AIOPS需要更精准的数据

白鳝的洞穴 2025-04-14

前两年我们在与一个用户交流数据库运维平台需要丰富而准确的指标的时候，他们认为我们的观点不对。他们以往的经验是有多大的锅煮多少人的菜，利用现有能采集到的指标去做好数据库运维监控就够用了，没必要采集过多的指标。因此他们坚持使用zabbix采集的那二十多个指标来辅助日常运维。在驻场DBA的支撑下，虽然偶然出些小故障，不过总体还算过得去。最近上级部门要他们利用AI来解决一些一些运维的问题，于是他们搭了个满血DeepSeek环境，利用他们现有的Zabbix环境采集的数据进行了一些尝试，发现效果很差。

其实DBAIOPS团队在研究如何利用大模型解决数据库运维中的问题的时候，也是越发觉得精准的数据的重要性。虽然目前DBAIOPS对数据库和操作系统采集了数百个指标，不过在实际使用过程中依然觉得不太够用。

比如严重的系统换页会引起事务平均等待时间变长，间接导致事务阻塞数量增大。为了确定该影响是否存在，我们要如何分析呢？目前DBAIOPS系统中有内存使用率，内存不可用率和交换区使用率这三个指标。内存使用率指标是绝对没啥用的，因为内存使用率过高，很可能大部分内存在BUFFER/CACHE中，不一定会引发换页，因此虽然会对应用产生影响，不过影响极小。内存不可用率准确一些，因为占用的内存无法快速释放，因此引发换页的几率更高一些。SWAP使用率只能说明当前部分内存换页了，但是还是无法明确表示在分析这段时间内产生过严重换页，因为很可能SWAP是很久以前就有的。

如果我们只是把这几个指标输入给DeepSeek，那么DeepSeek就只能去推测，产生幻觉就不可避免了。解决这个问题的方法就需要增加一个新的指标，最好的指标是通过/proc/vmstat去采集并记录换页的数据，并计算出采集周期内的差值，形成指标。如果当前系统并没有采集这方面的数据，也可以根据swap使用率的变化来做判断。不过这个变化是不准确的，如果某个时间区间内先增加了10%的SWAP，又减少了10%的SWAP，那么在两个指标采集点上看到的可能是想通的值。

从今天的这个问题，我们再一次认识到数字化对于智能化的重要意义。想做智能化，还是先老老实实把数字化搞好吧。

大数据 aiops

文章转载自白鳝的洞穴，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

AIOPS需要更精准的数据

评论