多点技术 _ Redis sentinel原理源码剖析

Dmall技术 2020-08-14

478

点击上方蓝色字体关注“Dmall 技术”

Sentinel原理简介

Redis Sentinel（哨兵）是Redis官方实现的高可用监控及自动切换组件，具有以下特点：

组件由多个分布式节点组成集群，共同对目标Redis进行故障判断

探测到目标Redis故障时，通过Raft协议选举出Leader，执行切换动作，更新复制拓扑结构

支持自定义外部脚本调用，比如：VIP/DNS/配置中心等更新操作

一套Sentinel集群可以监控多套目标Redis

实现巧妙，Sentinel节点之间相互自动发现及同步信息，简单易用

redis-sentinel其实就是redis-server，main函数会判断进程名称，或者传入参数，决定是运行server模式，还是sentinel模式：

/* Returns 1 if there is --sentinel among the arguments or if argv[0] contains "redis-sentinel". */

int checkForSentinelMode(int argc, char **argv) {

int j;

if (strstr(argv[0],"redis-sentinel") != NULL) return 1;

for (j = 1; j < argc; j++)

if (!strcmp(argv[j],"--sentinel")) return 1;

return 0;

}

Sentinel实现源码剖析

源码分析是比较枯燥的，在开始之前，带着如下几个问题：

Redis是单线程模式，Sentinel它是如何实现监控多套Redis集群的？

Sentinel与Master、Slave、及其他Sentinel之间是如何交流信息的？

Raft选举在Sentinel中是如何实现的？

具体failover流程，是怎样执行的？

几个特点：

单进程单线程：无锁实现，没有多线程并发编程中非常复杂的lock/unlock，逻辑简单，不容易出错，也容易调试
定时器 + 时间片：将执行拆成一个一个的时间片（50ms ~ 100ms），每个时间片内串行检查监控的每套Redis集群，遇到异常，启动failover流程

异步IO：Sentinel到Master、Slave、及其他Sentinel之间的命令交互，都是异步非阻塞的，在Linux实现中通过epoll_wait方式实现IO多路复用，确保每个时间片内，可以执行完对所有目标Redis集群的操作

状态机：failover操作流程长，步骤多，通过状态机的方式实现可重入，耗时操作可拆解到多个时间片中完成

hz是Redis中比较有特色的，它是服务器执行crontab的频率（每秒执行次数），主要处理一些异步后台任务，hz越高，执行越积极，两次调用之间间隔更短，比如：异步清理过期key。在sentinel中，hz在每个时间片后，都会被重新调整成10 ~ 20之间的一个随机数，结果：sentinel两个时间片之间的间隔为50ms ~ 100ms，主要作用是避免多个sentinel节点产生共振，在failover时容易发生脑裂。

sentinel集群对目标Redis进行监控和故障判定是多个节点进行，但在执行failover操作时，必须只能是1个节点，在sentinel发现某个master故障后，会判定为+sdown（subjectively down），然后在得到其他节点的确认后，如果满足大多数，并且达到了配置的quorum，会判定为+odown（objectively down），这时会启动failover流程，failover第一个操作就是raft选举，确定failover leader。