面试题：消息队列 Kafka 开发中生产者消息重试机制的基本原理是什么

生产者消息重试机制基本原理

重试触发条件：当生产者发送消息到 Kafka 集群时，如果遇到某些可恢复的错误，比如网络瞬时故障（如短暂的网络抖动导致连接中断）、分区 Leader 选举等情况，就会触发重试机制。常见的错误码如 NETWORK_EXCEPTION（网络异常）、LEADER_NOT_AVAILABLE（分区 Leader 不可用）等会导致重试。
重试配置参数：
- retries：该参数设置生产者在放弃前允许重试的最大次数。默认值通常为 0，表示不进行重试。例如，将 retries 设置为 3，则生产者在遇到可重试错误时，最多尝试发送消息 3 次。
- retry.backoff.ms：指定两次重试之间的时间间隔（单位为毫秒）。这个参数避免了在短时间内大量重试导致的网络拥塞等问题。比如设置为 1000，即每次重试间隔 1 秒。
重试流程：当生产者遇到可重试错误时，它会等待 retry.backoff.ms 时间后再次尝试发送消息。如果在 retries 次数内成功发送，则消息发送完成。若超过 retries 次数仍然失败，生产者会根据 acks 参数配置情况决定是否抛出异常。例如，当 acks = all 时，生产者需要等待所有副本确认消息已成功写入，若多次重试后仍无法满足此条件，则抛出异常。

重试过程中 Kafka 处理消息顺序性问题

分区内顺序保证：Kafka 保证在同一个分区内消息是有序的。生产者发送消息时，会根据 partitioner（分区器）将消息发送到特定分区。在重试过程中，如果消息一直发往同一个分区，由于 Kafka 内部是基于日志顺序追加写入的，所以只要生产者按照顺序发送且重试逻辑不改变消息的发送顺序，那么在该分区内消息顺序就可以得到保证。例如，生产者依次发送消息 M1、M2、M3 到分区 P1，如果 M1 发送失败需要重试，在重试成功后，M2、M3 才会继续发送，这样在 P1 分区内消息顺序依然是 M1、M2、M3。
跨分区顺序无法保证：如果生产者在重试过程中，由于一些原因（如分区负载均衡、自定义分区器逻辑改变等）导致消息被发送到不同分区，那么 Kafka 无法保证跨分区的消息顺序。比如，原本消息 M1 应发送到分区 P1，但重试时由于分区负载均衡，M1 被发送到了分区 P2，而后续消息 M2 正常发送到 P1，这种情况下就无法保证 M1 和 M2 的顺序。
生产者端保证：为了在重试过程中尽量保证消息顺序性，生产者可以通过一些策略来避免消息乱序。例如，使用同步发送方式，即发送完一条消息并确保成功（或重试成功）后再发送下一条消息。另外，在自定义分区器时，确保分区逻辑稳定，避免因分区逻辑变化导致消息跨分区发送从而破坏顺序性。

星途面试题库

面试题：消息队列 Kafka 开发中生产者消息重试机制的基本原理是什么

知识考点

面试题答案

生产者消息重试机制基本原理

重试过程中 Kafka 处理消息顺序性问题