ob_cluster_frozen_version_delta_over_threshold OB 集群冻结版本和基线版笔记本的差值超限 OceanBase工具学习笔记299

数据库新手 2023-06-22

140

欢迎访问 OceanBase 官网获取更多信息：https://www.oceanbase.com/

告警原理

下表列出了该告警监控逻辑中涉及的关键参数。

参数	值
监控指标	ob_cluster_frozen_version_delta
指标来源	SQL：select zone, name, value, time_to_usec(now()) from __all_zone; current_timestamp 取 time_to_usec(now()) 字段的值。 zone_value 取 value 字段的值。
采集指标	current_timestamp、zone_value
监控表达式	max(zone_value{metric_group="all_zone",name="frozen_version",@LABELS}) by (@GBLABELS) - min(zone_value{metric_group="all_zone",name="last_merged_version",@LABELS}) by (@GBLABELS)
采集周期	1 秒

监控指标 ob_cluster_frozen_version_delta 的值表示 OceanBase 集群冻结版本和基线版本的差值，当差值大于阈值（默认为 1）则触发告警。

规则信息

监控指标	默认阈值	持续时间	检测周期	消除周期
ob_cluster_frozen_version_delta	1	0 秒	60 秒	5 分钟

告警信息

告警触发方式	告警等级	范围
基于监控指标的表达式	严重	集群

告警模板

告警概述模板：${alarm_target} ${alarm_name}
告警详情模板：集群：${ob_cluster_name}，主机：${host}，告警：${alarm_name}，差值 ${value} 超过 ${alarm_threshold}
告警概述样例：ob_cluster=obcluster-1 OB 集群冻结版本和基线版本的差值超限
告警详情样例：集群：obcluster-1，主机：host-1，告警：OB 集群冻对系统的影响

影响语句的响应时间，极端情况下会导致 OBServer 节点内存使用过多、业务停写、clog 日志盘写满。

可能原因

常见于以下场景：

处理方法

可通过如下两处信息判断触发该告警的具体场景。
- 具体集群的 合并管理 > 合并详情 中查看最近的合并信息。
- 通过 系统管理 > 任务 中查看合并任务。
根据判断结果进行相应处理。
- 由于人工发起合并引起的该告警，可忽略，等待集群合并完成即可。

注意避免发起非必要的合并。

可先参考文档解决这些告警后，再进行合并，观察是否还有告警上报。

若仍无法定位问题或定位出问题但不知如何解决，可联系 OCP 技术支持人员帮助。

欢迎访问 OceanBase 官网获取更多信息：https://www.oceanbase.com/

最后修改时间：2023-06-22 21:57:22

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者