面试题：缓存设计之Memcached集群高可用与故障处理

心跳检测：
- 集群中的各个节点定期向其他节点发送心跳消息（例如使用UDP或TCP短连接）。若某个节点在一定时间（如心跳间隔的数倍，如3 - 5倍心跳间隔时间）内未收到特定节点的心跳响应，则初步判定该节点可能故障。
- 例如，心跳间隔设置为1秒，若5秒内未收到某个节点心跳，则进行进一步检测。
请求响应检测：
- 客户端在向Memcached节点请求数据时，若多次（可设置重试次数，如3 - 5次）请求某个节点都超时或收到错误响应，向集群管理系统报告该节点疑似故障。
- 比如客户端请求某个Memcached节点获取数据，连续5次请求超时，通知集群管理系统。

客户端重定位：
- 当检测到某个节点故障后，客户端通过集群管理系统获取新的节点映射信息。例如，原故障节点负责存储键key1的数据，客户端得知故障后，从集群管理系统获取key1现在应存储到的新节点信息，然后直接向新节点请求或写入数据。
- 这种方式适用于客户端能够感知集群变化且具有一定智能的情况，减少了服务端的迁移压力，但对客户端要求较高。
服务端主动迁移：
- 备份迁移：若集群采用了备份机制（如主从模式，有副本节点），从备份节点中选择一个提升为主节点，承担故障节点的工作。例如，节点A故障，其从节点B立即提升为主节点，接收客户端的读写请求。
- 一致性哈希迁移：对于基于一致性哈希的集群，当节点故障时，故障节点负责的数据会根据一致性哈希算法，顺时针迁移到下一个节点。例如，原本数据data1存储在故障节点node1，按照一致性哈希环，data1迁移到node1顺时针方向的下一个节点node2。

增加新节点：
- 一致性哈希调整：在一致性哈希集群中，加入新节点时，计算新节点在哈希环上的位置。然后，按照顺时针方向，将新节点位置到上一个节点之间的数据迁移到新节点。例如，新节点node_new加入，从node_new顺时针方向到其前一个节点node1的数据迁移到node_new。
- 负载均衡器调整：若使用负载均衡器（如硬件负载均衡器或软件负载均衡器如Nginx），调整负载均衡策略，将请求均匀分配到新加入的节点和原有的正常节点上。例如，修改Nginx的配置，将请求按权重或轮询方式分配到新节点。
移除故障节点后重新平衡：
- 数据重分布：在移除故障节点后，对剩余节点的数据进行重新分布。例如，采用虚拟节点的一致性哈希集群，重新计算虚拟节点的分布，使数据在剩余节点上更均匀分布。
- 更新元数据：集群管理系统更新元数据，如节点信息、数据存储映射表等，确保客户端和其他节点能获取正确的集群状态信息。例如，更新Zookeeper中的元数据，记录新的节点信息和数据分布。

知识考点