暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

南大通用GBase 8a数据库常见操作系统故障故障应急处置

原创 GBASE数据库 2025-03-14
51

当数据库发生故障时,你会如何进行应急处理?本文通过梳理南大通用GBase 8a数据库系统使用中可能出现的各种异常情况,以期帮助大家应对GBase 8a数据库使用中的突发故障,提供基本的问题解决思路。

2.1GBase 8a数据节点操作系统级别故障

2.1.1 操作系统损坏

现象描述

单节点操作系统损坏。

现象分析

GBase 8a数据节点Raid卡故障或操作系统故障,导致系统无法提供服务,需要重新安装操作系统。

应急操作流程

GBase 8a集群允许一台机器脱离集群,带病运行一段时间,但无法长期运行,需要尽快停止业务,对故障机器进行修复。可以使用预先准备好的备用机加入GBase 8a集群,减少安装操作系统的时间,缩短修复过程。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;

2)设置备用机,准备好加入集群。(10分钟)

3)运行部门停止故障集群上的作业。(取决于当时任务的大小,通常在1小时-4小时之间)

4)GBASE南大通用现场支持停止故障机,配置备机IP,进行GBase 8a数据同步;(根据数据量大小,通常在12-24小时之间)

5)GBASE南大通用现场支持启动GBase 8a集群。(20分钟)

6)运行部门启动集群作业。

2.1.2. 文件系统故障

现象描述

文件系统或者逻辑卷故障。

现象分析

本地磁盘、存储磁盘损坏,导致文件系统或者逻辑卷故障,以及空间满等,导致应用数据对磁盘读写异常。

应急操作流程

本地磁盘故障,导致系统io读写异常,不能正常对外服务。建议处置记录方法:

1)运行部门联系开放平台确认问题,并进行后续处理;

2)开放平台通知硬件维保厂商,检查硬件日志,定位问题;

3)尝试登录系统,检查系统日志及磁盘读写情况;

4)一般情况下本地硬盘使用Raid5,出现该场景问题的几率很低,硬件故障可能性较大;

5)硬件厂商更换故障磁盘;

6)如果文件丢失,使用备份文件进行恢复。GBase 8a数据库文件损坏,使用GBase 8a同步功能进行修复。

7)GBASE南大通用现场支持启动服务,观察问题是否解决。

2.2.加载机操作系统级别故障

2.2.1.操作系统损坏

现象描述

单节点操作系统损坏。

现象分析

GBase 8a数据节点Raid卡故障或操作系统故障,导致系统无法提供服务,需要重新安装操作系统。

应急操作流程

目前大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;

2)开放平台重新安装操作系统。(1小时)

3)开放平台配置IP、部署GBase 8a加载服务、客户端、应用服务等。(1小时)

4)GBASE南大通用现场支持或运行部门管理员启动该加载机服务。

2.2.2.文件系统故障

现象描述

文件系统或者逻辑卷故障。

现象分析

本地磁盘、存储磁盘损坏,导致文件系统或者逻辑卷故障,以及空间满等,导致应用数据对磁盘读写异常。

应急操作流程

大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置记录方法:

1)运行部门联系开放平台确认问题,并进行后续处理;

2)开放平台通知硬件维保厂商,检查硬件日志,定位问题;

3)尝试登录系统,检查系统日志及磁盘读写情况;

4)一般情况下本地硬盘使用Raid5,出现该场景问题的几率很低,硬件故障可能性较大;

5)硬件厂商更换故障磁盘;

6)GBase现场支持或运行部门管理员启动服务,观察问题是否解决。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论