暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
华为云_GaussDB T 1.0.2 告警参考.pdf
872
5页
14次
2022-06-13
免费下载
告警来源 告警模块 告警对象 告警ID 告警名 警名称描述
告警名称ID
告警类型 告警级别 告警描述 告警详细描述 对系统的影响 可能原因 处理步骤 人工确认 告警是否自动清除 相关告警ID 参数解释 资料示例
GaussD
B_DN
文件管理 主机资源 1E+09
句柄数不
操作系统无可用
句柄数
Insuffici
entDataI
nstFileD
esc
容量 告警
数据库集群组件[component-name],数据库节
点[datanode-name]发生句柄数不足
数据库集群组件[component-name],数据库
节点[datanode-name],实例[instance-
name]打开过多文件,导致句柄数不足。发生该
告警时,运行日志里一般会有对应信息显示是在
该节点的具体哪一个模块发生了句柄数不足
涉及打开文件的业务执行失败
1. 并发数过高,系统最大句柄数值过小
2. 数据库文件句柄泄露
1. ulimit -a 查看 open files的值
2. ulimit -n xxx 修改最大文件句柄数,修改后 ulimit -a查看是
否修改成功
3. 以上两个步骤仅针对于当前进程,如果需要永久修改,要修
改linux系统参数
vi /etc/security/limits.conf 添加
*  soft  nofile  65536
*  hard   nofile  65536
修改以后保存,注销当前用户,重新登录,执行ulimit -a
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1001010001|InsufficientDataInstFileDesc|DN|D
B_1|{'component-name':'DN','datanode-
name':'DB_1','instance-name':'DB_1'}|1
GaussD
B_DN
文件管理
数据库对
1E+09
数据库文
件监控告
监控数据库文件
有无发生变动
FileMoni
tor
状态 故障
数据库集群组件[component-name],数据库节
点[datanode-name]中有数据库文件被物理删除
或者移动
数据库集群组件[component-name],数据库
节点[datanode-name]的[file-name]文件通过
rm或mv命令被物理删除或移
DN可能会以一种无持久化文件的状
态运行,一旦出现故障或者异常导
致DN进程退出后, DN将无法从持
久化文件进行恢复
数据库文件(数据文件、redo日志)通
过rm或mv命令被物理删除或移
数据库进程关闭之
1. 通过lsof | grep FILE_NAME查询误删文件对应的pid和fd;
2. 通过cp /proc/PID/fd/FD FILE_NAME恢复文件
3. 执行alter database convert to readwrite或重启以恢复数
据库状态。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[file-name]:文件名称;
2019-07-06
20:02:17|1001060001|FileMonitor|DN|DB_1|{'componen
t-name':'DN','datanode-name':'DB_1','file-
name':'redo1'}|1
GaussD
B_DN
文件管理
数据库对
1E+09 文件损坏
监测运行中是否
出现损坏的文件
PageCor
rupt
报错 告警
数据库表空间[space-name]里的文件[file-name]
的文件损坏,页面类型[page-type]
数据库集群组件[component-name],数据库
节点[datanode-name]的表空间[space-name]
里的文件[file-name]的文件损坏,页面类型
[page-type],具体可以查看错误信
多次产生告警信息 服务器掉电或者磁盘发生物理损坏
1. 告警产生后,需要用户手动页面修复,或者将表空间
offline,或者重新建表
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[page-type]:页面类型
[space-name]:表空间名字
[file-name]:文件名
2019-07-06
20:02:17|1001060002|PageCorrupt|DN|zenith|{'compon
ent-name':'DN','datanode-name':'zenith','page-
type':'invalid','space-name':'SYSTEM','file-
name':'/home/gaussdba/data/system'}|1
GaussD
B_DN
事务
数据库状
1E+09 死锁
检查业务语句是
否报死锁错误
Deadloc
k
报错 信息
数据库集群组件[component-name],数据库节
点[datanode-name]发生死锁
数据库集群组件[component-name],数据库
节点[datanode-name],实例[instance-
name]的业务在执行过程中中产生了死锁,可以
在trace日志里查看具体死锁的语句、session、
类型等等
单条语句报错回滚 不同会话中并发交叉操作了同一批数据
1. 查看trace log 或者 run log (根据数据库版本不同,死锁日
志位置不同)
2. 根据日志里记录的具体信息,包括死锁类型,SQL语句等,
排查业务语句
3. 具体死锁处理可以参考资料管理员指南第三章节-管理日志-
YES YES
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1002050001|Deadlock|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','instance-
name':'DB_1'}|1
GaussD
B_DN
HA模块
数据库状
1E+09 降备
监测同步备降为
异步备的场景
Degrade 信息
数据库集群组件[component-name],数据库节
点[datanode-name]从同步备降为异步备
数据库集群组件[component-name],数据库
节点[datanode-name]发生降备,往 LNS发送
线程的日志缓冲区里刷日志[process],如果没
有刷成功,则节点[host]:[port]从同步备降为异
步备
无影响
在最大可用模式下,对于同步日志发送
线程,如果在2*REPL_WAIT_TIMEOUT
时间内还未收到备机的回复,则会从同
步状态降备临时异步状态
1. 告警的产生可能是由于网络异常或备机负载过高造成的。如
果不是人为的故障测试,一般会自愈,再次从临时异步变成同步
NO YES
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[status]:在某一过程中发生了降备
[peer-host]:主机;
[peer-port]:端口号;
2019-07-06
20:02:17|1003050001|Degrade|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','peer-
host':'127.0.0.1','peer-port':'1611', 'status':'flush log'}|1
GaussD
B_DN
HA模块
数据库状
1E+09
保存复制
用户密码
文件失败
检查复制用户的
密码文件是否保
存成功
ReplPas
swd
状态 告警
数据库角色[database-role]保存复制用户密码失
数据库集群组件[component-name],数据库
节点[datanode-name]的主机或备
[database-role]保存复制用户密码时发生异
常,需要用户手动通过工具去生成用户密码和密
钥。
主备断开后,会造成复制用户登录
失败
在主备开启用户密码认证功能后,如果
在主机上修改了复制用户密码,则要将
加密后的密码及key保存到文件,而且
机在重演日志时,也要同步修改并保
密码及key文件。 如果磁盘空间不足或其
它异常,则可能会造成文件保存失败
1. 告警产生后,需要用户手动通过工具去生成用户密码和密钥
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[database-role]:数据库角色,主机或备机
2019-07-06
20:02:17|1003050002|ReplPasswd|DN|DB_1|{'compone
nt-name':'DN','datanode-name':'DB_1','database-
role':'standby'|1
GaussD
B_DN
日志
数据库对
1E+09 归档
检查redo文件是
否归档成功
Archive 报错 严重告警
数据库集群组件[component-name],数据库节
点[datanode-name]中有redo日志归档失败
数据库集群组件[component-name],数据库
节点[datanode-name]的 [file-name]文件归档
失败,可以在运行日志中查看进一步原因
数据库可能会挂起,无法提供业务
在数据库实例DN进行Redo日志归档时
进行判断,归档失败则上报告警,是一
般性错误告警。出现告警时,会造成日
志无法归档,最终会导致数据库挂起,
无法提供业务
1. 检查归档日志文件权限/属性、所在磁盘状况,检查运行日志
具体的报错信息
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[file-name]:文件名称;
2019-07-06
20:02:17|1004060001|Archive|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','file-
name':'123.arc'}|1
GaussD
B_DN
日志
数据库对
1E+09
日志刷盘
失败
检查redo文件是
否刷盘成功
FlushRe
do
报错 严重告警
数据库集群组件[component-name],数据库节
点[datanode-name]发生redo日志刷盘失败
数据库集群组件[component-name],数据库
节点[datanode-name]在做redo日志刷盘时,
[file-name]文件刷盘失败
数据库进程退出
在数据库实例DN上进行redo写盘时进
行判断,写盘失败则上报告警,是比较
严重的错误告警。出现该告警时,数据
库会立即停止客户端请求,主进程立
退出。
1. 检查Redo日志文件权限/属性、所在磁盘状况,检查运行日
志具体的报错信息
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[file-name]:文件名称;
2019-07-06
20:02:17|1004060002|FlushRedo|DN|DB_1|{'component
-name':'DN','datanode-name':'DB_1','file-
name':'redo1'}|1
GaussD
B_DN
日志
数据库对
1E+09 审计日志
无法记录审计日
AuditLo
g
报错 告警
数据库集群组件[component-name],数据库节
点[datanode-name]审计日志无法记录告警
数据库集群组件[component-name],数据库
节点[datanode-name]的实例[instance-
name] 发生了无法写审计计日志的告警。
需要扩展表空间的业务报错
检查审计日志异常。数据库表空间不
够,无法写审计日志
根据具体情况,可采用以下措施之一
方法一:将表空间扩展
方法二:其他的表删除,空余空间给审计日志。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1004060001|AuditLog|DN|DB_1|{'component -
name':'DN','datanode-name':'DB_1','instance-
name':'DB-1'|1
GaussD
B_DN
缓冲区
数据库对
1E+09
缓冲区刷
检查缓冲区是否
刷盘成功
FlushBuf
fer
报错 严重告警
数据库集群组件[component-name],数据库节
点[datanode-name]发生缓冲区刷盘失败
数据库集群组件[component-name],数据库
节点[datanode-name],实例[instance-
name]的dbwr线程发生写盘失败
数据库进程退出
在数据库实例DN上进行buffer写盘时进
行判断,写盘失败则上报告警,是比较
严重的错误告警。出现该告警时,数据
库会立即停止客户端请求,主进程立
退出。
1. 检查数据日志文件权限/属性、所在磁盘状况,检查运行日志
具体的报错信息
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1005060001|FlushBuffer|DN|DB_1|{'componen
t-name':'DN','datanode-name':'DB_1','instance-
name':'DB_1'}|1
GaussD
B_DN
表空间
数据库对
1E+09 表空间
检查表空间的使
用阈值
Tablesp
aceUsag
e
容量 告警
数据库集群组件[component-name],数据库节
点[datanode-name]中的表空间到达了一定阈值
数据库集群组件[component-name],数据库
节点[datanode-name]的[tablespace-name]
表空间的使用率已经超过了总空间的
[threshold]
需要扩展表空间的业务报错
检查数据库实例DN表空间使用率。如
存在表空间使用率达到用户指定的阈
值,则上报告警。每3秒检测一次, 用户
通过措施消除告警后,若表空间使用率
重新达到阈值,会产生新的告警
根据具体情况,可采用以下措施之一
方法一:查询v$datafile或者dv_data_files视图, 若当前表空间
存在未开启自动扩展的数据文件,开启数据文件/表空间的自动
扩展。
方法二:查询v$datafile或者dv_data_files视图, 调整自动扩展
的maxsize
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[space-name]:表空间名称;
[alarm-threshold]:告警阈值;
2019-07-06
20:02:17|1006060001|TablespaceUsage|DN|DB_1|{'com
ponent-name':'DN','datanode-name':'DB_1','space-
name':'user1', 'alarm-threshold':'80'}|1
GaussD
B_DN
服务端模
数据库状
1E+09
会话连接
失败
监测是否有会话
连接失败的场景
AttachA
gent
报错 告警
数据库集群组件[component-name],数据库节
点[datanode-name]有新会话连接失败
数据库集群组件[component-name],数据库
节点[datanode-name]连接会话[session-id]失
无法连接新会话 会话连接响应客户端消息失败
1. 检查当前Session连接数是否存在大量并发,系统配置
Session大小是否合理,当前操作系统内存是否有余量。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[session-id]:失败的会话号;
2019-07-06
20:02:17|1007050001|Session|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','session-id':'3'}|1
GaussD
B_DN
服务端模
数据库状
1E+09
会话连接
检查连接会话数
是否达到最大值
MaxCon
nections
报错 告警
数据库集群组件[component-name],数据库节
点[datanode-name]的连接会话已经到了最大连
接数量
数据库集群组件[component-name],数据库
节点[datanode-name]会话连接失败,连接数
过多,最大连接数为[max_sessions]
无法连接新会话 会话连接数过多 1. 在运行日志中查看具体失败原因 YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[max-sessions]:最大连接数量;
2019-07-06
20:02:17|1007050002|MaxConnections|DN|DB_1|{'comp
onent-name':'DN','datanode-name':'DB_1','max-
sessions':'3'}|1
GaussD
B_DN
服务端模
数据库状
1E+09 恶意登录
监测有无短时间
内连续登陆失败
的ip地址
Maliciou
sLogin
报错 告警
数据库集群组件[component-name],数据库节
点[node-name]的短时间内某个IP[ip]连续多次登
录失败
数据库集群组件[component-name],数据库
节点[node-name]的1min内某个IP[ip]连续登
录失败超过10次,则告警。每分钟相同告警最
多打印6条。集群内各节点之间的互连不会产生
该告警。tcp建连成功后,在单机或者分布式
DN中告警组件显示的都是DN;分布式CN中告
多次产生告警信息 错误登录次数过多 1. 从告警日志中查看恶意IP YES NO
[component-name]:数据库集群中的组件;
[node-name]:数据库的节点名称
2019-07-29
10:35:43|1007050003|MaliciousLogin|DN|zenith|{'comp
onent-name':'DN','datanode-
name':'DB_1','ip':'127.0.0.1'}|1
GaussD
B_DN
服务端模
数据库对
1E+09
定时任务
失败
监测有无运行失
败的定时任务
Job 报错 信息
数据库集群组件[component-name],数据库节
点[datanode-name]中有定时任务失败
数据库集群组件[component-name],数据库
节点[datanode-name]的定时任务[job-id]运行
失败,具体可以查看错误信息为[err-msg]
定时任务失败 根据具体的报错信息决定
1. 检查当前Job任务是否正常执行,可以通过查询 Job系统视图
表。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[job-id]:定时任务编号;
[error-message]:错误原因;
2019-07-06
20:02:17|1007060001|Job|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','job-id':'3', 'error-
message':'err_msg'}|1
告警名称描述
告警描述
告警详细描述
对系统的影响
可能原因
处理步骤
人工确认
告警是否自动清除
相关告警ID
参数解释
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
逻辑复制
进程异常
退出
逻辑复制工具
在运行的过程
中异常退出
Main
Thread
Aborted
报错 告警
逻辑复制工具在运行的过
程中异常退出
逻辑复制工具在运行的过程中可
能因为其他线程异常而退出
逻辑复制工具不能提供服务
1. 回放SQL失败:目的端可能不存在需要操作
的表;目的端表列字段数和源端列字段数不一
致;目的端表列字段名称和源端列字段名称不
一致
1. 查看逻辑复制的run日志,定位解决逻
辑复制异常退出的原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
逻辑复制
写回放进
度失败
逻辑复制工具
在运行过程中
写回放进度失
Write
Checkp
oint
报错 告警
逻辑复制工具在运行过程
中写回放进度失败
逻辑复制工具在运行过程中写回
放进度失败
逻辑复制工具不能提供服务
1. 源端数据库异常:源端数据库进程退出;源
端数据库发生主备切换
1. 查看逻辑复制的run日志,定位查看具
体异常原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
逻辑复制
写回放进
度线程退
逻辑复制工具
在运行过程中
写回放进度线
程异常退出
Write
Checkp
oint
Thread
Aborted
报错 告警
逻辑复制工具在运行过程
中写回放进度线程异常退
逻辑复制工具在运行过程中写回
放进度线程异常退出
逻辑复制工具不能提供服务
1. 源数据库进程退出;源端数据库发生主备切
2. 写磁盘文件失败:磁盘无空间
1. 查看逻辑复制的run日志,定位查看具
体异常原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
抽取解析
日志线程
异常退出
抽取解析日志
线程异常退出
LogCatc
her
Thread
Aborted
报错 告警
抽取解析日志线程异常退
逻辑复制工具抽取解析在线日志
或者归档日志线程异常退出
逻辑复制工具不能提供服务
1. 解析日志数据出错:元数据信息发生变更;
日志格式和目前的逻辑复制工具解析代码不配
1. 查看逻辑复制的run日志,定位查看具
体异常原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
回放线程
异常退出
回放线程异常
退出
Replaye
r
Thread
Aborted
报错 告警 回放线程异常退出
逻辑复制工具sql回放线程异常退
逻辑复制工具不能提供服务
1. 执行SQL失败:目的端可能不存在需要操作
的表;目的端表列字段数和源端列字段数不一
致;目的端表列字段名称和源端列字段名称不
一致
1. 查看逻辑复制的run日志,定位查看具
体异常原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
逻辑复制
主备切换
逻辑复制主备
检测
Switch
Primary
to
Standby
报错 告警 逻辑复制主备检测
逻辑复制检测源端数据库主备状
逻辑复制工具不能提供服务
1. 源端数据库发生主备切换:数据库出现异
常,需要查看数据库日志
1. 查看逻辑复制的run日志,定位查看具
体异常原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
事务分发
线程异常
退出
事务分发线程
异常退出
Transact
ion
Dispatc
h
Thread
Aborted
报错 告警 事务分发线程异常退出
逻辑复制工具事务分发线程异常
退出
逻辑复制工具不能提供服务 1. 分发事务异常:管理事务的队列出现bug
1. 查看逻辑复制的run日志,定位查看具
体异常原因
YES NO
GaussD
B_DN
逻辑复制
工具
运行环境 1E+09
目标数据
库异常
目标数据库异
Destinat
ion
Databas
e
Excepti
报错 告警 目标数据库异常
逻辑复制工具使用的目标数据库
异常
逻辑复制工具不能提供服务 1. 与目标数据库断连:目标数据库进程挂掉
1. 查看目的端数据库是否异常,根据情
况处理目的端数据库
YES NO
of 5
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜