面试题：Redis集群节点管理之节点故障处理

故障检测：
- 节点心跳机制：Redis集群中的节点通过定期发送心跳包（PING消息）来互相监控状态。每个节点都会向集群中的其他节点发送PING消息，同时也会接收其他节点的PONG回复消息。如果一个节点在一定时间内（通常是配置的超时时间，例如cluster-node-timeout）没有收到某个节点的PONG回复，就会标记该节点为疑似下线（PFAIL，Probable Failure）状态。
- Gossip协议：节点之间通过Gossip协议交换彼此对集群状态的认知。当一个节点标记另一个节点为PFAIL状态时，它会通过Gossip消息将这个信息传播给其他节点。如果半数以上持有槽（slot）的主节点都标记某个节点为PFAIL状态，那么这个节点就会被判定为真正下线（FAIL）状态。
故障处理：
- 数据重新分配：Redis集群采用哈希槽（Hash Slot）的方式来分配数据。当一个主节点发生故障下线后，集群会将其负责的哈希槽重新分配给其他正常的主节点。具体来说，集群管理工具（如redis - trib.rb）或者集群内部的自动故障转移机制会计算出新的哈希槽分配方案，并通知相关节点进行数据迁移。例如，原本由故障节点负责的哈希槽范围为[1000 - 2000]，会被均匀地分配到其他可用的主节点上。
- 故障转移：对于有从节点的主节点故障情况，集群会自动触发故障转移。从节点会发起选举，通过向其他主节点发送请求，争取成为新的主节点。获得大多数主节点投票（超过半数）的从节点会晋升为新的主节点，接管原主节点的哈希槽和数据，继续提供服务。例如，假设有3个从节点A、B、C，A节点向其他主节点发送选举请求，若获得超过半数主节点的同意，A节点就会成为新的主节点。这样可以保障数据的可用性，使得集群在部分节点故障的情况下仍能正常工作。同时，新主节点会继续与其他节点保持心跳和Gossip通信，维持集群的一致性状态。

面试题：Redis集群节点管理之节点故障处理

知识考点

面试题答案