面试题：消息队列之RocketMQ在集群环境下的高可用实践

Master - Slave 架构：RocketMQ采用Master - Slave架构，一个Master可以有多个Slave。当Broker节点（Master）出现故障时，生产者不会直接感知到Master的故障。因为RocketMQ客户端在发送消息时，会自动尝试从其他可用的Master节点发送消息。
NameServer 与路由信息：NameServer存储了Broker的路由信息。当Master故障时，NameServer会更新路由表，移除故障的Master节点。客户端定期从NameServer拉取最新的路由信息，从而得知哪些Master节点是可用的。例如，假设集群中有Master1、Master2和Master3三个主节点，当Master1故障时，NameServer会将其从路由表中移除，客户端下次拉取路由信息后，就不会再尝试向Master1发送消息。
消息重试机制：如果生产者向某个Master发送消息失败（可能因为该Master故障），生产者会根据重试策略进行重试。默认情况下，RocketMQ生产者会重试2次。比如，生产者向Master1发送消息失败，它会尝试向Master2发送，如果再次失败，会尝试向Master3发送。

负载均衡与Rebalance：消费者组内的消费者会进行负载均衡。当一个Broker节点（Master或Slave）故障时，该Broker上的消息分区（Queue）会重新分配给其他存活的消费者。RocketMQ的Rebalance机制会根据消费者组内消费者的数量、Broker的存活状态等因素，动态调整每个消费者负责消费的Queue。例如，原本消费者C1消费来自Broker1的Queue1和Queue2，Broker1故障后，Rebalance会将Queue1和Queue2分配给其他存活的消费者，如C2或C3。
从Slave节点消费：消费者在消费时，不仅可以从Master节点消费消息，也可以配置从Slave节点消费。当Master节点故障时，消费者可以继续从对应的Slave节点消费消息。不过，从Slave节点消费可能存在一定的消息延迟，因为Slave是从Master同步数据的。例如，Master1故障后，原本从Master1消费的消费者可以切换到其Slave1节点继续消费。
消费重试机制：如果消费者在消费消息时失败，RocketMQ提供了消费重试机制。对于普通消息，默认会重试16次。每次重试的间隔时间会逐渐变长，从10秒开始，最长到2小时。例如，第一次消费失败后，10秒后重试；第二次失败，30秒后重试；以此类推。

消息复制：在正常情况下，Master会将消息同步到Slave节点。采用异步复制或同步双写等方式。异步复制时，Master在将消息写入自身存储后，会异步地将消息发送给Slave；同步双写则是Master等待Slave确认消息写入成功后，才向生产者返回成功响应。当Master故障后，Slave节点的数据可能存在部分未同步的情况。此时，若要保证消息不丢失，在Master恢复后，需要进行数据同步补偿。例如，采用增量同步的方式，从上次同步的断点处继续同步未同步的消息。
自动故障转移：RocketMQ的NameServer和客户端会自动检测Broker节点的故障。当检测到Broker故障后，NameServer更新路由信息，客户端根据新的路由信息进行消息发送和消费。这个过程无需人工干预，实现了自动的故障转移。例如，在监控到Master1故障后，NameServer立即将其标记为不可用，客户端下次拉取路由信息时，就会依据新的路由进行操作。
手动干预与数据恢复：在极端情况下，如果自动的补偿措施无法完全恢复数据或保证消息的正常流转，运维人员可以手动干预。例如，通过备份数据恢复故障Broker上的数据，或者调整集群的配置，如增加新的Broker节点，重新分配消息队列等，以确保消息发送和消费的高可用性。

星途面试题库