星途面试题库

面试题：消息队列 Kafka 中分区（Partition）的作用是什么？

请阐述 Kafka 分区在架构中的作用，包括但不限于对数据存储、消息处理性能、高可用性等方面的影响。

19.5万热度

难度

后端开发消息队列

知识考点

AI 面试

面试题答案

数据存储方面

分布式存储：Kafka 通过分区将数据分散存储在不同的 broker 节点上。每个分区是一个有序、不可变的消息序列，以追加的方式写入。这使得 Kafka 能够处理海量数据，避免单个节点存储瓶颈，提升整体存储容量。
数据局部性：分区可以根据特定的规则（如按照消息的某个 key 进行分区），将相关的数据存储在同一分区内。例如，以用户 ID 为 key 进行分区，同一用户的所有消息会在同一个分区，方便后续基于特定维度的数据检索和处理。

消息处理性能方面

并行处理：生产者可以并行地向不同分区发送消息，消费者也可以并行地从不同分区拉取消息进行处理。因为不同分区可以分布在不同的 broker 节点上，所以这种并行处理极大地提高了消息的吞吐率。例如，在高并发的日志收集场景中，多个生产者实例可以同时向不同分区写入日志消息，同时多个消费者实例可以并行地从不同分区读取日志进行分析。
负载均衡：分区有助于在多个 broker 节点间均衡负载。当一个 broker 节点的某个分区负载过高时，Kafka 可以通过重新分配分区，将负载分散到其他节点，从而提升整体的处理性能。

高可用性方面

副本机制：每个分区可以有多个副本，包括一个 leader 副本和多个 follower 副本。leader 副本负责处理读写请求，follower 副本则从 leader 副本同步数据。当 leader 副本所在的 broker 节点发生故障时，Kafka 可以从 follower 副本中选举出新的 leader 副本，保证分区的可用性，进而确保整个 Kafka 集群的高可用性。
故障恢复：由于分区副本的存在，即使某个 broker 节点故障，该节点上的分区数据也不会丢失。Kafka 集群可以通过从其他副本中恢复数据，快速让故障分区重新提供服务，减少服务中断时间。