暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据库故障的一站式处理—zCloud真实演练

原创 蒋晓迪 2020-04-23
3690

上一篇介绍了zCloud的备份恢复管理(我是传送门~),本篇将介绍zCloud的dbPaaS能力(五):监控巡检和性能容量实战之数据库故障的一站式处理。

随着金融行业的不断发展,很多企业在资源共享、标准化和自动化等方面有了一定的基础积累,也对运维的方式做出了创新和尝试。上线和投产的运维工具很多,如监控工具、打分画像工具、一键快速检查工具、数据库快速分析平台、故障个分析工具等。这些工具的使用在一定程度上提高了运维的效率和质量。

但由于工具众多,往往一个问题的出现,需要通过几个工具来分析和定位,这无形中给DBA和管理人员带来很大的管理复杂度和操作难度,与此同时,处理问题最终还是靠手工命令执行,难以真正做到自动化智能化的运维。这些都会增加问题总体的解决耗时,业务受影响或中断的时间长,连续运行能力差,尤其对金融行业而言,容易带来不好的用户体验和社会影响。

zCloud数据库云管理平台可以实现数据库从“问题发现-问题定位-问题解决”的全栈式处理,帮助运维人员及时把握数据库运行状态,及时发现风险问题,并快速定位,最终通过平台一站式快速问题处理,最终实现“一分钟发现问题,三分钟定位问题,五分钟解决问题”的效果。

下边介绍如何通过zCloud平台来实现数据库告警的”1-3-5“高效处理。

STEP 01 发现问题

zCloud的监控大屏可以直观展示数据库的运行状态和情况,如DBA比较关注的数据库在线状态、CPU内存使用趋势、DB Time趋势、表空间容量现状和告警信息。
监控大屏.png
通过监控大屏的最近24小时告警显示,可以看到10:23:05 存在一个告警:Oracle数据库实例P01(192.168.99.32)被阻塞的会话数超过了3个,当前达到了5个。

根据经验判断,阻塞会话如果增多,时间过长的话,会严重影响用户的体验,并可能引发更大的问题,所以此种告警级别相对较高,需要立刻排查处理。
image20200423151348836.png
与此同时,DBA也会收到zCloud平台通过各种途径(如邮件、短信等)发来的告警信息,通过平台的告警首页查看告警详情,包含了对象IP定位、严重等级、告警的持续时间、详细描述。

追溯首次告警时间是2020-4-21 10:22:26,并且最近一次告警是10:33:35,已经持续了11分钟!

接下来就可以通过zCloud提供的的实时性能详情来定位分析。
image20200423152051611.png

STEP 02 定位问题

进入zCloud的监控告警模块,定位到P01实例,我们可以看到,实时活动会话数的趋势从10:20左右就开始出现大幅增加,并一直居高不下,并且Application类的等待最多。

框选趋势图中从10:20-10:40这一时间区间,可以下钻出该时间段的TOP SQL和TOP SESSION列表。

SQL ID为apqbtnw2abvju的UPDATE类型SQL占用的Activity%达到了99.64%,一定有问题…
image20200423153318222.png
点击该SQL ID可查看关于这条SQL的详情,对SQL文本和执行计划,对象进行分析。

红色标记部分为该条SQL问题所在,可以看到执行计划的操作为TABLE ACCESS FULL全表扫描,对象名为TEST2,等待事件占比很高,CPU开销为125,886,275,IO开销为1377。

SQL性能详情提供了对象信息的统计,能够直观查看TEST2这张表的统计信息,如用户名、数据行数、块大小、索引信息等。
SQL详情分析.png

为了能够多维度的分析该告警的情况,我们可以查看活动会话的情况。果然,活动会话的TOP SQL还是它,共4个会话数,占比80%,TOP等待事件的描述为enq:TX -row lock contention

原来是会话阻塞了,这是一个行级锁等待事件!image20200423154538185.png
接下来通过会话阻塞分析的Tab页的查看,可以看到第一行就是阻塞源。

至此,该条告警问题已经迅速定位并分析完毕。image20200423155057640.png

STEP 03 解决问题

zCloud提供了在平台上一键杀掉会话的功能,DBA可以直接在该条会话后点击“杀掉会话”,迅速解决问题。由于杀会话的操作属于对高危操作,二次确认无误后,确认执行。
image20200423155226044.png
以上就是zCloud的1-3-5其中一个场景:接收告警信息后,如何快速定位告警问题、还原事件现场,并通过一键杀会话解决。

STEP 04 事后回顾

zCloud平台提供了近两年任一时段的历史性能查看,可以选择某区间查看历史TOP SQL以及下钻分析详情。
image20200423173959454.png
同时zCloud还提供了任一时间的AWR报告生成和在线查看功能,轻松备案事件。如选择2020-04-21 10:00-11:00的时段,生成AWR报告,用做事件分析和记录。
image20200423172745676.png
image20200423173116519.png
image20200423174210602.png

zCloud是私有云环境下,帮助大型企业实现数据库资源集中管理和高效率使用、实现数据库运维自动化和智能化的数据库云管理平台,并帮助客户优化资源以降低成本,以及快速交付数据库实现业务快速增长的IT支撑需求。感兴趣的同学可以持续关注应用场景介绍的更新,也可以邮件联系我们 marketing@enmotech.com。
下一篇将介绍zCloud的SQL变更管理(我是传送门~)。

附上本系列的链接,方便查阅:
1、什么是dbPaaS?
2、云和恩墨的dbPaaS:zCloud 数据库云管理平台
3、zCloud的dbPaaS能力(一):租户和资源管理
4、zCloud的dbPaaS能力(二):自动化部署
5、zCloud的dbPaaS能力(三):高可用管理 Part1 - Oracle
6、zCloud的dbPaaS能力(三):高可用管理 Part2 - MySQL
7、zCloud的dbPaaS能力(四):备份恢复管理
8、zCloud的dbPaaS能力(五):监控巡检和性能容量实战之数据库故障的一站式处理
9、zCloud的dbPaaS能力(六):SQL变更管理
10、zCloud的dbPaaS平台案例集锦

最后修改时间:2020-07-21 18:28:41
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论