
当数据库发生故障时,你会如何进行应急处理?本文通过梳理南大通用GBase 8a数据库系统使用中可能出现的各种异常情况,以期帮助大家应对GBase 8a数据库使用中的突发故障,提供基本的问题解决思路。
1.1 GBase 8a数据节点硬件级别故障
现象描述
GBase 8a单节点宕机或Hang住。
现象分析
GBase 8a数据节点主机因电源模块故障、主板等硬件原因导致宕机;另外还包括本地磁盘故障、对外服务网络中断、Raid卡故障所有通道连接中断等系统无法正常对外提供服务的情况。
应急操作流程
GBase 8a集群允许一台机器脱离集群,带病运行一段时间,但无法长期运行,需要尽快停止业务,对故障硬件进行修复。建议处置方法:
1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台通知设备维护厂商现场支持,进行故障硬件维修;(10分钟)
3)运行部门停止故障集群上的作业。(取决于当时任务的大小,通常在1小时-4小时之间)
4)硬件厂商修复故障机器。(4-8小时)
5)GBase现场支持启动数据库服务,进行数据同步等状态检查,如有异常进行数据修复。(30分钟)
6)运行部门启动集群作业。
1.2 加载机硬件级别故障
现象描述
加载机宕机或Hang住。
现象分析
加载机主机因电源模块故障、主板等硬件原因导致宕机;另外还包括本地磁盘故障、对外服务网络中断、Raid卡故障所有通道连接中断等系统无法正常对外提供服务的情况。
应急操作流程
目前大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置方法:
1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台通知设备维护厂商现场支持,进行故障硬件维修;(10分钟)
3)硬件厂商修复故障机器。(4-8小时)
4)GBASE南大通用现场支持或运行部门管理员启动加载机上加载、应用服务等。(30分钟)




