欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
告警原理
下表列出了该告警监控逻辑中涉及的关键参数。
参数 | 值 |
---|---|
监控指标 | ob_cluster_frozen_version_delta |
指标来源 | SQL:select zone, name, value, time_to_usec(now()) from __all_zone;
|
采集指标 | current_timestamp、zone_value |
监控表达式 | max(zone_value{metric_group="all_zone",name="frozen_version",@LABELS}) by (@GBLABELS) - min(zone_value{metric_group="all_zone",name="last_merged_version",@LABELS}) by (@GBLABELS) |
采集周期 | 1 秒 |
监控指标 ob_cluster_frozen_version_delta 的值表示 OceanBase 集群冻结版本和基线版本的差值,当差值大于阈值(默认为 1)则触发告警。
规则信息
监控指标 | 默认阈值 | 持续时间 | 检测周期 | 消除周期 |
---|---|---|---|---|
ob_cluster_frozen_version_delta | 1 | 0 秒 | 60 秒 | 5 分钟 |
告警信息
告警触发方式 | 告警等级 | 范围 |
---|---|---|
基于监控指标的表达式 | 严重 | 集群 |
告警模板
- 告警概述模板:${alarm_target} ${alarm_name}
- 告警详情模板:集群:${ob_cluster_name},主机:${host},告警:${alarm_name},差值 ${value} 超过 ${alarm_threshold}
- 告警概述样例:ob_cluster=obcluster-1 OB 集群冻结版本和基线版本的差值超限
- 告警详情样例:集群:obcluster-1,主机:host-1,告警:OB 集群冻对系统的影响
影响语句的响应时间,极端情况下会导致 OBServer 节点内存使用过多、业务停写、clog 日志盘写满。
可能原因
常见于以下场景:
- OceanBase 集群正在自动合并时,人工发起合并。
- 人工连续发起合并。
- 上次合并异常未完成,而后续合并又触发了新的合并。
处理方法
- 可通过如下两处信息判断触发该告警的具体场景。
- 具体集群的 合并管理 > 合并详情 中查看最近的合并信息。
- 通过 系统管理 > 任务 中查看合并任务。
- 根据判断结果进行相应处理。
- 由于人工发起合并引起的该告警,可忽略,等待集群合并完成即可。
注意避免发起非必要的合并。
- 由于合并慢或者合并失败引起的告警,会同时触发其他告警如:ob_cluster_merge_error OB 集群合并出错、ob_cluster_merge_timeout OB 集群合并超时。
可先参考文档解决这些告警后,再进行合并,观察是否还有告警上报。
- 其他异常场景,继续执行下一步进行排查。
- 参考 OceanBase 集群合并异常处理 中的顺序就行排查。
若仍无法定位问题或定位出问题但不知如何解决,可联系 OCP 技术支持人员帮助。
欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/