
引言:本篇文章主要介绍 RocketMQ 的可观测性工具在线上生产环境的最佳实践。RocketMQ的可观测性能力领先业界同类产品,RocketMQ 的 Dashboard 和消息轨迹等功能为业务核心链路保驾护航,有效应对线上大规模生产使用过程中遇到的容量规划、消息收发问题排查以及自定义监控等场景。
消息队列简介
Cloud Native


可观测能力
Cloud Native

RocketMQ 的可观测性工具的概念介绍
Cloud Native
Topic:消息主题,一级消息类型,通过Topic对消息进行分类;
消息(Message):消息队列中信息传递的载体;
Broker:消息中转角色,负责存储消息,转发消息;
Producer:消息生产者,也称为消息发布者,负责生产并发送消息;
Consumer:消息消费者,也称为消息订阅者,负责接收并消费消息。



RocketMQ 的可观测性工具的功能介绍
Cloud Native

查看实例据总的消息收发量、TPS、消息类型分布情况。
查看是的各个指标当前的分布和排序情况:发送消息量最多的 Topic、消费消息量最多的 GroupID、堆积消息量最多的 GroupID、排队时间最长的 GroupID 等。

查看指定 Topic 的发送消息量曲线图。
查看指定 Topic 的发送成功率曲线图。
查看指定 Topic 的发送耗时曲线图。

查看指定 Group 订阅指定 Topic 的消息量曲线图。
查看指定 Group 订阅指定 Topic 的消费成功率。
查看指定 Group 订阅指定 Topic 的消费耗时等指标。
查看指定 Group 订阅指定 Topic 的消息堆积相关指标。


最佳实践
Cloud Native
一级指标:用来报警的指标,公认的没有异议的指标。
二级指标:一级指标发生变化的时候,通过查看二级指标,能够快速定位问题的原因所在。
三级指标:定位二级指标波动原因。根据各自业务的特点和经验添加。


实例详情页》查看指定实例数据统计,可以看到所选时间段内的最大消息收发的 TPS 峰值。
铂金版实例可以根据这个数据来添加报警监控和判断业务。
可以查看概览总消息量模块
指定一段时间内(例如近一周),按 Topic 的消息发送量由小到大排序,查看是否有消息发送量为 0 的 Topic,这些 Topic 相关的业务或许已下线。
指定一段时间内(例如近一周),按 GroupID 的消息消费量由小到大排序,查看是否有消息消费量为 0 的 GroupID,这些 GroupID 相关的业务或许已下线。

查看 Topic 消息接收量的每天的高峰时间段。
查看 Topic 消息接收量周末和非周某的消息量差别。
查看 Topic 消息接收量节假日的变化情况。
查看消息量辅助判断业务量变化趋势。
查看消息处理耗时,判断是否在合理范围内有提升的空间。
文章转载自阿里巴巴云原生,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




