面试题：消息队列在混沌工程实践中的常见故障场景及应对

常见故障场景及应对措施

消息积压
- 故障场景：消息产生速度远大于消费速度，导致消息在队列中大量堆积，占用大量内存或磁盘空间，甚至可能使系统崩溃。
- 应对措施：
  - 增加消费者数量：通过水平扩展，启动更多的消费者实例来提高消息处理能力。例如在基于RabbitMQ的项目中，可以在配置文件中增加消费者进程的数量。
  - 优化消费逻辑：检查消费端代码，确保消息处理逻辑高效，减少不必要的计算和I/O操作。比如避免在消费消息时进行复杂的数据库事务操作，将其优化为异步操作或批量操作。
  - 启用优先级队列：如果消息具有不同的优先级，设置优先级队列，优先处理高优先级消息，以减少关键业务的延迟。在Kafka中，可以通过自定义分区器和消息格式来实现优先级队列。
消息丢失
- 故障场景：由于网络问题、队列服务器故障或代码逻辑错误，导致消息未能成功发送到队列，或者在队列中未被正确消费就丢失。
- 应对措施：
  - 生产者确认机制：使用消息队列提供的生产者确认（ACK）机制，确保消息成功发送到队列。以RabbitMQ为例，通过设置channel.confirmSelect()开启确认模式，发送消息后等待服务器的确认响应，如果未收到确认则进行重发。
  - 持久化设置：对队列和消息设置持久化，确保即使队列服务器重启，消息也不会丢失。在Kafka中，通过设置acks = all保证所有副本都收到消息才认为消息发送成功，同时将主题的retention.ms设置为较大值，防止消息过早过期。
  - 消费端手动ACK：在消费端采用手动确认消息机制，只有消息被成功处理后才向队列发送确认，避免因消费端故障导致消息被误判为已消费而丢失。在使用JMS（Java Message Service）时，可以设置session.CLIENT_ACKNOWLEDGE模式。
消息重复消费
- 故障场景：由于网络波动、消费端确认消息失败但实际已处理等原因，导致同一条消息被多次消费，可能引发业务逻辑错误，如数据重复插入。
- 应对措施：
  - 幂等性设计：在消费端业务逻辑中实现幂等性，即多次处理同一消息产生的效果与处理一次相同。例如在数据库操作中，使用唯一约束或INSERT INTO... ON DUPLICATE KEY UPDATE语句，确保重复插入数据时不会产生错误。
  - 消息去重表：创建消息去重表，在消费消息前先查询该表，判断消息是否已被处理。表结构可以包含消息唯一标识（如消息ID）、处理状态等字段。在MySQL中可以创建一张message_deduplication表，每次消费消息前执行SELECT COUNT(*) FROM message_deduplication WHERE message_id =? AND status = 'processed'查询。
  - 分布式缓存去重：利用分布式缓存（如Redis）来记录已处理的消息ID，消费消息前先从缓存中查询。可以使用Redis的SETNX命令（SET if Not eXists），如果返回1表示该消息ID不存在，即未被处理，可以进行消费并将其写入缓存；如果返回0则表示已处理，直接忽略。
队列服务不可用
- 故障场景：消息队列服务器因硬件故障、软件升级、网络隔离等原因无法正常提供服务，导致消息无法发送或接收。
- 应对措施：
  - 多活架构：采用多活部署方式，搭建多个消息队列服务器实例，并进行负载均衡。例如使用Kafka的多副本机制，每个分区有多个副本分布在不同的Broker上，当某个Broker故障时，其他副本可以继续提供服务。
  - 故障转移机制：在应用程序中实现故障检测和自动转移逻辑，当检测到当前连接的队列服务不可用时，自动切换到备用的队列服务。可以使用心跳检测机制定期检查队列服务的状态，在Spring Boot应用中可以通过自定义的健康检查和重试逻辑实现。
  - 本地缓存策略：在客户端设置本地缓存，当队列服务不可用时，将消息暂时缓存到本地，待服务恢复后再批量发送。可以使用内存缓存（如Guava Cache）或本地文件系统缓存，例如在Java中使用LinkedBlockingQueue结合文件持久化来实现简单的本地缓存。

星途面试题库

面试题：消息队列在混沌工程实践中的常见故障场景及应对

知识考点

面试题答案

常见故障场景及应对措施