面试题：消息队列在日志收集中的高可用性保障

确保消息队列高可用性

Kafka
- 多副本机制：Kafka 采用多副本（Replication Factor）机制。每个分区（Partition）可以有多个副本，其中一个是领导者（Leader）副本，负责处理读写请求，其他是追随者（Follower）副本。追随者副本会定期从领导者副本同步数据。如果领导者副本所在的 Broker 发生故障，Kafka 会从追随者副本中选举出新的领导者副本，从而保证分区的可用性。例如，将 replication.factor 设置为 3 ，这样每个分区就有 2 个追随者副本。
- Broker 集群：部署多个 Kafka Broker 节点组成集群。通过 Zookeeper 来管理集群成员信息、选举控制器等。即使部分 Broker 节点出现故障，整个集群仍然可以继续工作。
RabbitMQ
- 镜像队列：RabbitMQ 可以通过配置镜像队列（Mirror Queue）来实现高可用性。在镜像队列模式下，队列会在多个节点上进行复制，主节点负责处理客户端的请求，其他镜像节点会同步主节点的状态。如果主节点发生故障，镜像节点中的一个会被选举成为新的主节点。可以通过 RabbitMQ 管理界面或者配置文件来设置镜像队列。
- 集群模式：RabbitMQ 集群模式允许将多个节点组成一个逻辑集群。节点之间通过 Erlang 分布式协议进行通信，实现队列、交换器等资源的共享和同步。这提高了整体的可用性和扩展性。

排查和解决消息丢失问题

Kafka
- 生产者端：
  - 原因排查：检查生产者配置，比如 acks 参数设置。如果 acks = 0 ，生产者发送消息后不会等待任何确认，可能导致消息丢失。同时，检查网络连接是否不稳定，是否存在网络闪断等情况。
  - 解决方法：将 acks 设置为 1 （等待 Leader 副本确认）或 -1 （等待所有同步副本确认）。并且使用带有回调函数的 send 方法，在发送失败时进行重试。例如：

ProducerRecord<String, String> record = new ProducerRecord<>("topic", "key", "value");
producer.send(record, (metadata, exception) -> {
    if (exception != null) {
        // 发送失败，进行重试逻辑
    }
});

消费者端：
- 原因排查：消费者可能在处理完消息但还未提交偏移量（Offset）时发生故障，导致 Kafka 认为该消息未被消费，重新分配给其他消费者，而原消费者处理的结果丢失。
- 解决方法：可以采用手动提交偏移量的方式，在消息处理成功后再提交偏移量。例如在 Java 中：

ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
for (ConsumerRecord<String, String> record : records) {
    // 处理消息
}
consumer.commitSync();

Broker 端：
- 原因排查：如果 Broker 配置不当，例如 unclean.leader.election.enable 设置为 true ，当 Leader 副本所在 Broker 故障，可能选举一个落后的 Follower 副本成为 Leader ，导致部分消息丢失。
- 解决方法：将 unclean.leader.election.enable 设置为 false ，确保选举出来的 Leader 副本是同步状态良好的。

RabbitMQ
- 生产者端：
  - 原因排查：未开启 confirm 模式，生产者无法得知消息是否成功到达 Broker 。网络问题也可能导致消息在传输过程中丢失。
  - 解决方法：开启 confirm 模式，生产者发送消息后，Broker 会返回确认结果。例如在 Java 中：

channel.confirmSelect();
channel.addConfirmListener((deliveryTag, multiple) -> {
    if (multiple) {
        // 批量确认
    } else {
        // 单条确认
    }
}, (deliveryTag, multiple) -> {
    // 确认失败处理
});

消费者端：
- 原因排查：消费者采用自动确认模式（auto - ack=true），在消息到达消费者但还未处理时，消费者可能因故障退出，导致消息丢失。
- 解决方法：设置 auto - ack=false ，手动确认消息。在消息处理成功后调用 channel.basicAck(deliveryTag, false) 进行确认。
Broker 端：
- 原因排查：磁盘满、内存不足等问题可能导致 RabbitMQ 丢弃消息。
- 解决方法：监控 Broker 的磁盘空间和内存使用情况，设置合理的资源限制，并且开启持久化（队列和消息都设置为持久化）。

排查和解决重复消费问题

Kafka
- 原因排查：消费者手动提交偏移量时，可能因为网络延迟等原因，提交的偏移量小于实际处理的消息偏移量，导致重新消费部分消息。
- 解决方法：在业务处理逻辑中增加幂等性设计。例如，对消息进行唯一标识，处理消息前先检查该标识是否已处理过。可以使用数据库的唯一约束，或者 Redis 的 SETNX 命令来实现幂等性。
RabbitMQ
- 原因排查：在消息确认机制中，如果消费者处理完消息但确认消息时网络异常，RabbitMQ 未收到确认，会将消息重新投递给其他消费者，导致重复消费。
- 解决方法：同样采用幂等性设计。比如在数据库层面，对插入操作使用 INSERT IGNORE 或者 ON DUPLICATE KEY UPDATE 语句，确保重复消息不会产生重复的业务影响。

星途面试题库

面试题：消息队列在日志收集中的高可用性保障

知识考点

面试题答案

确保消息队列高可用性

排查和解决消息丢失问题

排查和解决重复消费问题