实例间的通信开销会随着实例规模增加而增大。
- Redis Cluster每个实例都会保存slot和实例的对应关系,以及自身的状态信息。
- 集群的每个实例都知道其他实例的信息,实例之间按照Gossip协议进行通信。
- 每个实例按照一定频率,随机在集群中挑选一定实例,PING(封装了实例自身状态、部分其他实例信息,和Slot映射表),检测实例是否在线,交换彼此状态信息。
- 实例在收到PING会发送一个PONG消息,PONG的内容和PING的信息一样。
开销受到通信消息大小和通信频率影响。

Gossip 消息大小
// Gossip 大小104字节
typedef struct {char nodename[CLUSTER_NAMELEN]; //40字节uint32_t ping_sent; //4字节uint32_t pong_received; //4字节char ip[NET_IP_STR_LEN]; //46字节uint16_t port; //2字节uint16_t cport; //2字节uint16_t flags; //2字节uint32_t notused1; //4字节
} clusterMsgDataGossip;
- PING消息还带有长度为16384bit的Bitmap,Bitmap的每一位对应一个slot,
实例间通信频率
- Redis Cluster 的实例启动后,默认会每秒从本地的实例列表中随机选出 5 个实例,再从这 5个实例中找出一个最久没有通信的实例,把 PING 消息发送给该实例。这是实例周期性发送PING 消息的基本做法。(有些实例一直没有被发送PING消息,导致维护的集群状态已经过期)。
- Redis Cluster 的实例会按照每 100ms 一次的频率,扫描本地的实例列表,如果发现有实例最近一次接收 PONG 消息的时间,已经大于配置项 cluster-node-timeout 的一半了(cluster-node-timeout/2)就会立刻给该实例发送 PING 消息,更新这个实例上的集群状态信息。