告警来源 告警模块 告警对象 告警ID 告警名 称 告 警名称描述
告警类型 告警级别 告警描述 告警详细描述 对系统的影响 可能原因 处理步骤 人工确认 告警是否自动清除 相关告警ID 参数解释 资料示例
GaussD
B_DN
文件管理 主机资源 1E+09
句柄数不
足
操作系统无可用
句柄数
Insuffici
entDataI
nstFileD
esc
容量 告警
数据库集群组件[component-name],数据库节
点[datanode-name]发生句柄数不足
数据库集群组件[component-name],数据库
节点[datanode-name],实例[instance-
name]打开过多文件,导致句柄数不足。发生该
告警时,运行日志里一般会有对应信息显示是在
该节点的具体哪一个模块发生了句柄数不足
涉及打开文件的业务执行失败
1. 并发数过高,系统最大句柄数值过小
2. 数据库文件句柄泄露
1. ulimit -a 查看 open files的值
2. ulimit -n xxx 修改最大文件句柄数,修改后 ulimit -a查看是
否修改成功
3. 以上两个步骤仅针对于当前进程,如果需要永久修改,要修
改linux系统参数。
vi /etc/security/limits.conf 添加
* soft nofile 65536
* hard nofile 65536
修改以后保存,注销当前用户,重新登录,执行ulimit -a
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1001010001|InsufficientDataInstFileDesc|DN|D
B_1|{'component-name':'DN','datanode-
name':'DB_1','instance-name':'DB_1'}|1
GaussD
B_DN
文件管理
数据库对
象
1E+09
数据库文
件监控告
警
监控数据库文件
有无发生变动
FileMoni
tor
状态 故障
数据库集群组件[component-name],数据库节
点[datanode-name]中有数据库文件被物理删除
或者移动
数据库集群组件[component-name],数据库
节点[datanode-name]的[file-name]文件通过
rm或mv命令被物理删除或移动
DN可能会以一种无持久化文件的状
态运行,一旦出现故障或者异常导
致DN进程退出后, DN将无法从持
久化文件进行恢复。
数据库文件(数据文件、redo日志)通
过rm或mv命令被物理删除或移动
数据库进程关闭之前
1. 通过lsof | grep FILE_NAME查询误删文件对应的pid和fd;
2. 通过cp /proc/PID/fd/FD FILE_NAME恢复文件;
3. 执行alter database convert to readwrite或重启以恢复数
据库状态。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[file-name]:文件名称;
2019-07-06
20:02:17|1001060001|FileMonitor|DN|DB_1|{'componen
t-name':'DN','datanode-name':'DB_1','file-
name':'redo1'}|1
GaussD
B_DN
文件管理
数据库对
象
1E+09 文件损坏
监测运行中是否
出现损坏的文件
PageCor
rupt
报错 告警
数据库表空间[space-name]里的文件[file-name]
的文件损坏,页面类型[page-type]
数据库集群组件[component-name],数据库
节点[datanode-name]的表空间[space-name]
里的文件[file-name]的文件损坏,页面类型
多次产生告警信息 服务器掉电或者磁盘发生物理损坏
1. 告警产生后,需要用户手动页面修复,或者将表空间
offline,或者重新建表
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[page-type]:页面类型
[space-name]:表空间名字
2019-07-06
20:02:17|1001060002|PageCorrupt|DN|zenith|{'compon
ent-name':'DN','datanode-name':'zenith','page-
type':'invalid','space-name':'SYSTEM','file-
name':'/home/gaussdba/data/system'}|1
GaussD
B_DN
事务
数据库状
态
1E+09 死锁
检查业务语句是
否报死锁错误
Deadloc
k
报错 信息
数据库集群组件[component-name],数据库节
点[datanode-name]发生死锁
数据库集群组件[component-name],数据库
节点[datanode-name],实例[instance-
name]的业务在执行过程中中产生了死锁,可以
在trace日志里查看具体死锁的语句、session、
单条语句报错回滚 不同会话中并发交叉操作了同一批数据
1. 查看trace log 或者 run log (根据数据库版本不同,死锁日
志位置不同)
2. 根据日志里记录的具体信息,包括死锁类型,SQL语句等,
排查业务语句
3. 具体死锁处理可以参考资料管理员指南第三章节-管理日志-
YES YES
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1002050001|Deadlock|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','instance-
name':'DB_1'}|1
GaussD
B_DN
HA模块
数据库状
态
1E+09 降备
监测同步备降为
异步备的场景
Degrade 状态 信息
数据库集群组件[component-name],数据库节
点[datanode-name]从同步备降为异步备
数据库集群组件[component-name],数据库
节点[datanode-name]发生降备,往 LNS发送
线程的日志缓冲区里刷日志[process],如果没
有刷成功,则节点[host]:[port]从同步备降为异
步备
无影响
在最大可用模式下,对于同步日志发送
线程,如果在2*REPL_WAIT_TIMEOUT
时间内还未收到备机的回复,则会从同
步状态降备临时异步状态
1. 告警的产生可能是由于网络异常或备机负载过高造成的。如
果不是人为的故障测试,一般会自愈,再次从临时异步变成同步
。
NO YES
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[status]:在某一过程中发生了降备;
[peer-host]:主机;
[peer-port]:端口号;
2019-07-06
20:02:17|1003050001|Degrade|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','peer-
host':'127.0.0.1','peer-port':'1611', 'status':'flush log'}|1
GaussD
B_DN
HA模块
数据库状
态
1E+09
保存复制
用户密码
文件失败
检查复制用户的
密码文件是否保
存成功
ReplPas
swd
状态 告警
数据库角色[database-role]保存复制用户密码失
败
数据库集群组件[component-name],数据库
节点[datanode-name]的主机或备机
[database-role]保存复制用户密码时发生异
常,需要用户手动通过工具去生成用户密码和密
钥。
主备断开后,会造成复制用户登录
失败
在主备开启用户密码认证功能后,如果
在主机上修改了复制用户密码,则要将
加密后的密码及key保存到文件,而且备
机在重演日志时,也要同步修改并保存
密码及key文件。 如果磁盘空间不足或其
1. 告警产生后,需要用户手动通过工具去生成用户密码和密钥
。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[database-role]:数据库角色,主机或备机
2019-07-06
20:02:17|1003050002|ReplPasswd|DN|DB_1|{'compone
nt-name':'DN','datanode-name':'DB_1','database-
role':'standby'|1
GaussD
B_DN
日志
数据库对
象
1E+09 归档
检查redo文件是
否归档成功
Archive 报错 严重告警
数据库集群组件[component-name],数据库节
点[datanode-name]中有redo日志归档失败
数据库集群组件[component-name],数据库
节点[datanode-name]的 [file-name]文件归档
失败,可以在运行日志中查看进一步原因
数据库可能会挂起,无法提供业务
在数据库实例DN进行Redo日志归档时
进行判断,归档失败则上报告警,是一
般性错误告警。出现告警时,会造成日
志无法归档,最终会导致数据库挂起,
1. 检查归档日志文件权限/属性、所在磁盘状况,检查运行日志
具体的报错信息。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[file-name]:文件名称;
2019-07-06
20:02:17|1004060001|Archive|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','file-
name':'123.arc'}|1
GaussD
B_DN
日志
数据库对
象
1E+09
日志刷盘
失败
检查redo文件是
否刷盘成功
FlushRe
do
报错 严重告警
数据库集群组件[component-name],数据库节
点[datanode-name]发生redo日志刷盘失败
数据库集群组件[component-name],数据库
节点[datanode-name]在做redo日志刷盘时,
[file-name]文件刷盘失败
数据库进程退出
在数据库实例DN上进行redo写盘时进
行判断,写盘失败则上报告警,是比较
严重的错误告警。出现该告警时,数据
库会立即停止客户端请求,主进程立即
1. 检查Redo日志文件权限/属性、所在磁盘状况,检查运行日
志具体的报错信息
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[file-name]:文件名称;
2019-07-06
20:02:17|1004060002|FlushRedo|DN|DB_1|{'component
-name':'DN','datanode-name':'DB_1','file-
name':'redo1'}|1
GaussD
B_DN
日志
数据库对
象
1E+09 审计日志
无法记录审计日
志
AuditLo
g
报错 告警
数据库集群组件[component-name],数据库节
点[datanode-name]审计日志无法记录告警
数据库集群组件[component-name],数据库
节点[datanode-name]的实例[instance-
name] 发生了无法写审计计日志的告警。
需要扩展表空间的业务报错
检查审计日志异常。数据库表空间不
够,无法写审计日志
根据具体情况,可采用以下措施之一:
方法一:将表空间扩展
方法二:其他的表删除,空余空间给审计日志。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1004060001|AuditLog|DN|DB_1|{'component -
name':'DN','datanode-name':'DB_1','instance-
GaussD
B_DN
缓冲区
数据库对
象
1E+09
缓冲区刷
盘
检查缓冲区是否
刷盘成功
FlushBuf
fer
报错 严重告警
数据库集群组件[component-name],数据库节
点[datanode-name]发生缓冲区刷盘失败
数据库集群组件[component-name],数据库
节点[datanode-name],实例[instance-
name]的dbwr线程发生写盘失败
数据库进程退出
在数据库实例DN上进行buffer写盘时进
行判断,写盘失败则上报告警,是比较
严重的错误告警。出现该告警时,数据
库会立即停止客户端请求,主进程立即
1. 检查数据日志文件权限/属性、所在磁盘状况,检查运行日志
具体的报错信息。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[instance-name]:实例名称;
2019-07-06
20:02:17|1005060001|FlushBuffer|DN|DB_1|{'componen
t-name':'DN','datanode-name':'DB_1','instance-
name':'DB_1'}|1
GaussD
B_DN
表空间
数据库对
象
1E+09 表空间
检查表空间的使
用阈值
Tablesp
aceUsag
e
容量 告警
数据库集群组件[component-name],数据库节
点[datanode-name]中的表空间到达了一定阈值
数据库集群组件[component-name],数据库
节点[datanode-name]的[tablespace-name]
表空间的使用率已经超过了总空间的
[threshold]
需要扩展表空间的业务报错
检查数据库实例DN表空间使用率。如果
存在表空间使用率达到用户指定的阈
值,则上报告警。每3秒检测一次, 用户
通过措施消除告警后,若表空间使用率
重新达到阈值,会产生新的告警。
根据具体情况,可采用以下措施之一:
方法一:查询v$datafile或者dv_data_files视图, 若当前表空间
存在未开启自动扩展的数据文件,开启数据文件/表空间的自动
扩展。
方法二:查询v$datafile或者dv_data_files视图, 调整自动扩展
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[space-name]:表空间名称;
[alarm-threshold]:告警阈值;
2019-07-06
20:02:17|1006060001|TablespaceUsage|DN|DB_1|{'com
ponent-name':'DN','datanode-name':'DB_1','space-
name':'user1', 'alarm-threshold':'80'}|1
GaussD
B_DN
服务端模
块
数据库状
态
1E+09
会话连接
失败
监测是否有会话
连接失败的场景
AttachA
gent
报错 告警
数据库集群组件[component-name],数据库节
点[datanode-name]有新会话连接失败
数据库集群组件[component-name],数据库
节点[datanode-name]连接会话[session-id]失
败
无法连接新会话 会话连接响应客户端消息失败
1. 检查当前Session连接数是否存在大量并发,系统配置
Session大小是否合理,当前操作系统内存是否有余量。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[session-id]:失败的会话号;
2019-07-06
20:02:17|1007050001|Session|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','session-id':'3'}|1
GaussD
B_DN
服务端模
块
数据库状
态
1E+09
会话连接
满
检查连接会话数
是否达到最大值
MaxCon
nections
报错 告警
数据库集群组件[component-name],数据库节
点[datanode-name]的连接会话已经到了最大连
接数量
数据库集群组件[component-name],数据库
节点[datanode-name]会话连接失败,连接数
过多,最大连接数为[max_sessions]
无法连接新会话 会话连接数过多 1. 在运行日志中查看具体失败原因 YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[max-sessions]:最大连接数量;
2019-07-06
20:02:17|1007050002|MaxConnections|DN|DB_1|{'comp
onent-name':'DN','datanode-name':'DB_1','max-
sessions':'3'}|1
GaussD
B_DN
服务端模
块
数据库状
态
1E+09 恶意登录
监测有无短时间
内连续登陆失败
的ip地址
Maliciou
sLogin
报错 告警
数据库集群组件[component-name],数据库节
点[node-name]的短时间内某个IP[ip]连续多次登
录失败
数据库集群组件[component-name],数据库
节点[node-name]的1min内某个IP[ip]连续登
录失败超过10次,则告警。每分钟相同告警最
多打印6条。集群内各节点之间的互连不会产生
该告警。tcp建连成功后,在单机或者分布式
多次产生告警信息 错误登录次数过多 1. 从告警日志中查看恶意IP YES NO
[component-name]:数据库集群中的组件;
[node-name]:数据库的节点名称;
2019-07-29
10:35:43|1007050003|MaliciousLogin|DN|zenith|{'comp
onent-name':'DN','datanode-
name':'DB_1','ip':'127.0.0.1'}|1
GaussD
B_DN
服务端模
块
数据库对
象
1E+09
定时任务
失败
监测有无运行失
败的定时任务
Job 报错 信息
数据库集群组件[component-name],数据库节
点[datanode-name]中有定时任务失败
数据库集群组件[component-name],数据库
节点[datanode-name]的定时任务[job-id]运行
失败,具体可以查看错误信息为[err-msg]
定时任务失败 根据具体的报错信息决定
1. 检查当前Job任务是否正常执行,可以通过查询 Job系统视图
表。
YES NO
[component-name]:数据库集群中的组件;
[datanode-name]:数据库的节点名称;
[job-id]:定时任务编号;
[error-message]:错误原因;
2019-07-06
20:02:17|1007060001|Job|DN|DB_1|{'component-
name':'DN','datanode-name':'DB_1','job-id':'3', 'error-
message':'err_msg'}|1
评论