暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

南大通用GBase 8a数据库常见硬件故障故障应急处置

原创 GBASE数据库 2025-03-14
97

当数据库发生故障时,你会如何进行应急处理?本文通过梳理南大通用GBase 8a数据库系统使用中可能出现的各种异常情况,以期帮助大家应对GBase 8a数据库使用中的突发故障,提供基本的问题解决思路。

1.1 GBase 8a数据节点硬件级别故障

现象描述

GBase 8a单节点宕机或Hang住。

现象分析

GBase 8a数据节点主机因电源模块故障、主板等硬件原因导致宕机;另外还包括本地磁盘故障、对外服务网络中断、Raid卡故障所有通道连接中断等系统无法正常对外提供服务的情况。

应急操作流程

GBase 8a集群允许一台机器脱离集群,带病运行一段时间,但无法长期运行,需要尽快停止业务,对故障硬件进行修复。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;

2)开放平台通知设备维护厂商现场支持,进行故障硬件维修;(10分钟)

3)运行部门停止故障集群上的作业。(取决于当时任务的大小,通常在1小时-4小时之间)

4)硬件厂商修复故障机器。(4-8小时)

5)GBase现场支持启动数据库服务,进行数据同步等状态检查,如有异常进行数据修复。(30分钟)

6)运行部门启动集群作业。

1.2 加载机硬件级别故障

现象描述

加载机宕机或Hang住。

现象分析

加载机主机因电源模块故障、主板等硬件原因导致宕机;另外还包括本地磁盘故障、对外服务网络中断、Raid卡故障所有通道连接中断等系统无法正常对外提供服务的情况。

应急操作流程

目前大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;

2)开放平台通知设备维护厂商现场支持,进行故障硬件维修;(10分钟)

3)硬件厂商修复故障机器。(4-8小时)

4)GBASE南大通用现场支持或运行部门管理员启动加载机上加载、应用服务等。(30分钟)

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论