暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

ob_cluster_frozen_version_delta_over_threshold OB 集群冻结版本和基线版笔记本的差值超限 OceanBase工具学习笔记299

数据库新手 2023-06-22
140

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

告警原理

下表列出了该告警监控逻辑中涉及的关键参数。

参数

监控指标

ob_cluster_frozen_version_delta

指标来源

SQL:select zone, name, value, time_to_usec(now()) from __all_zone;

  • current_timestamp 取 time_to_usec(now()) 字段的值。
  • zone_value 取 value 字段的值。

采集指标

current_timestamp、zone_value

监控表达式

max(zone_value{metric_group="all_zone",name="frozen_version",@LABELS}) by (@GBLABELS) - min(zone_value{metric_group="all_zone",name="last_merged_version",@LABELS}) by (@GBLABELS)

采集周期

1 秒

监控指标 ob_cluster_frozen_version_delta 的值表示 OceanBase 集群冻结版本和基线版本的差值,当差值大于阈值(默认为 1)则触发告警。

规则信息

监控指标

默认阈值

持续时间

检测周期

消除周期

ob_cluster_frozen_version_delta

1

0 秒

60 秒

5 分钟

告警信息

告警触发方式

告警等级

范围

基于监控指标的表达式

严重

集群

告警模板

  • 告警概述模板:${alarm_target} ${alarm_name}
  • 告警详情模板:集群:${ob_cluster_name},主机:${host},告警:${alarm_name},差值 ${value} 超过 ${alarm_threshold}
  • 告警概述样例:ob_cluster=obcluster-1 OB 集群冻结版本和基线版本的差值超限
  • 告警详情样例:集群:obcluster-1,主机:host-1,告警:OB 集群冻对系统的影响

影响语句的响应时间,极端情况下会导致 OBServer 节点内存使用过多、业务停写、clog 日志盘写满。

可能原因

常见于以下场景:

  • OceanBase 集群正在自动合并时,人工发起合并。
  • 人工连续发起合并。
  • 上次合并异常未完成,而后续合并又触发了新的合并。

处理方法

  1. 可通过如下两处信息判断触发该告警的具体场景。
    • 具体集群的 合并管理 > 合并详情 中查看最近的合并信息。
    • 通过 系统管理 > 任务 中查看合并任务。
  2. 根据判断结果进行相应处理。
    • 由于人工发起合并引起的该告警,可忽略,等待集群合并完成即可。

注意避免发起非必要的合并。

可先参考文档解决这些告警后,再进行合并,观察是否还有告警上报。

    • 其他异常场景,继续执行下一步进行排查。
  1. 参考 OceanBase 集群合并异常处理 中的顺序就行排查。

若仍无法定位问题或定位出问题但不知如何解决,可联系 OCP 技术支持人员帮助。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

最后修改时间:2023-06-22 21:57:22
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论