面试题：消息队列 Kafka 在游戏运营数据实时统计系统中的数据一致性保障

生产者端
- 设置合适的acks参数：将acks设置为all（或 -1），这样生产者会等待所有的ISR（In - Sync Replicas，同步副本集）中的副本都确认收到消息后才认为消息发送成功。这可以确保消息不会因为某个副本的故障而丢失，但是可能会降低消息发送的吞吐量。
- 启用幂等性：通过设置enable.idempotence=true，Kafka生产者会自动为每个消息分配一个唯一的ID，并在发送过程中避免重复发送相同ID的消息，从而保证即使在网络波动等情况下，也不会产生重复消息。
Kafka Broker端
- 调整ISR相关参数
  - min.insync.replicas：适当增加min.insync.replicas的值，比如设置为2或3。这意味着在ISR中的副本数量达到这个值时，生产者发送的消息才会被认为是已提交的。这样即使有部分副本出现故障，只要ISR中还有足够数量的副本，数据就不会丢失。
  - replica.lag.time.max.ms：合理设置该参数，它定义了副本与领导者副本之间的滞后时间。如果一个副本的滞后时间超过这个值，它将被从ISR中移除。合理设置这个值可以保证ISR中的副本都是“健康”的，减少数据不一致的风险。
- 使用日志压缩：对于一些需要保持数据一致性的场景，比如游戏玩家的最新状态等，可以使用Kafka的日志压缩功能。日志压缩会保留每个键的最新值，当Broker进行日志清理时，会确保每个键对应的最新值不会被删除，从而保证数据的一致性。
消费者端
- 设置合适的offset提交策略
  - 自动提交：如果使用自动提交，要合理设置auto.commit.interval.ms参数，确保在合适的时间间隔内提交offset，避免因为消费者故障重启后重复消费过多消息。但自动提交可能会在某些情况下导致少量的数据重复或丢失。
  - 手动提交：手动提交可以精确控制offset的提交时机，消费者在成功处理完一批消息后，再提交offset，这样可以保证消息处理的完整性和一致性。但手动提交需要开发者更仔细地处理offset的管理，避免因为异常情况导致offset未正确提交。
- 处理重复消息：在消费者端的业务逻辑中，增加对重复消息的处理机制。例如，为每条消息设置唯一标识，在处理消息前先检查是否已经处理过该消息，避免重复处理造成的数据统计不准确。

星途面试题库

面试题：消息队列 Kafka 在游戏运营数据实时统计系统中的数据一致性保障

知识考点

面试题答案