面试题：消息队列 Kafka 中动态分区是如何实现负载均衡的？

消息分配实现负载均衡的方式

生产者端：
- 默认策略：Kafka 生产者默认使用轮询（Round - Robin）策略。当生产者发送消息时，如果消息没有指定 key，那么生产者会按照分区号顺序，依次将消息发送到每个分区，从而实现消息在各个分区上的大致均匀分布。例如，假设有 3 个分区 partition0、partition1、partition2，第一条消息发送到 partition0，第二条发送到 partition1，第三条发送到 partition2，第四条又发送到 partition0，以此类推。
- 按 key 分配：如果消息指定了 key，Kafka 会对 key 进行哈希计算，然后根据哈希值对分区数取模，将消息发送到对应的分区。例如，假设有 5 个分区，key 的哈希值为 12，那么 12 % 5 = 2，消息就会被发送到 partition2。这种方式能保证具有相同 key 的消息始终发送到同一个分区，对于需要保证消息顺序的场景很有用，同时在一定程度上也能实现负载均衡，因为不同 key 的哈希值分布相对均匀。
消费者端：
- 消费者组：Kafka 通过消费者组（Consumer Group）来实现消费者之间的负载均衡。每个消费者组可以包含多个消费者实例。Kafka 会自动将分区分配给消费者组内的消费者实例，使得每个消费者实例负责消费部分分区的数据。例如，假设有一个消费者组包含 3 个消费者实例 C1、C2、C3，以及 6 个分区 partition0 - partition5，Kafka 可能会将 partition0、partition1 分配给 C1，partition2、partition3 分配给 C2，partition4、partition5 分配给 C3。
- 再均衡：当消费者组内有新的消费者实例加入或者有消费者实例离开时，Kafka 会触发再均衡（Rebalance）机制。在再均衡过程中，Kafka 会重新分配分区给消费者实例，以保证负载均衡。例如，当 C2 离开消费者组时，Kafka 会将 C2 原来负责的 partition2、partition3 重新分配给 C1 和 C3，可能 C1 负责 partition2，C3 负责 partition3。

关键组件或机制

生产者：
- Partitioner：分区器是生产者端负责决定消息发送到哪个分区的组件。除了上述默认的轮询和按 key 哈希分配策略，用户还可以自定义分区器，根据业务逻辑来决定消息的分区。例如，根据消息中的某个字段进行分区，以满足特定的业务需求。
消费者：
- 协调者（Coordinator）：Kafka 为每个消费者组选举出一个协调者。协调者负责管理消费者组的状态，包括消费者的加入、离开，以及分区的分配。当消费者组内发生变化时，协调者会发起再均衡过程。
- 心跳机制：消费者通过向协调者发送心跳（Heartbeat）来表明自己还存活。如果协调者长时间没有收到某个消费者的心跳，就会认为该消费者已死亡，从而触发再均衡。例如，默认情况下，消费者每 3 秒向协调者发送一次心跳，如果 10 秒内没有收到心跳，协调者就会判定消费者死亡。
Zookeeper（旧版本关键组件）：
- 在 Kafka 的早期版本中，Zookeeper 扮演着重要角色。它存储了 Kafka 的集群元数据，包括主题（Topic）、分区、消费者组等信息。消费者组的协调者选举等操作也依赖 Zookeeper。虽然 Kafka 从 0.11.0.0 版本开始引入了基于 Kafka 自身的组协调协议，对 Zookeeper 的依赖有所减少，但 Zookeeper 依然在一些元数据管理方面发挥作用。例如，Zookeeper 会记录每个消费者组的消费偏移量（Offset），用于消费者故障恢复后继续从正确的位置消费消息。

星途面试题库

面试题：消息队列 Kafka 中动态分区是如何实现负载均衡的？

知识考点

面试题答案

消息分配实现负载均衡的方式

关键组件或机制