面试题：消息队列Kafka架构中数据持久化的基本原理是什么

生产者发送消息：
- 生产者将消息发送到Kafka集群的某个主题（Topic）。生产者会根据分区策略（如轮询、按键哈希等）决定将消息发送到该主题的哪个分区。
- 例如，如果采用按键哈希策略，对于键值为key1的消息，会根据key1的哈希值映射到相应的分区。
Kafka Broker接收消息：
- 集群中的Broker（Kafka服务器实例）接收来自生产者的消息。每个Broker负责管理一部分分区。
- 当消息到达Broker时，它会被暂时存储在内存中的缓冲区（如ProducerBatch）等待进一步处理。

写入文件：
- Kafka采用日志结构的文件系统来进行数据持久化。每个分区对应一个日志文件（Log Segment），日志文件由多个Segment文件组成。
- 当内存缓冲区中的消息达到一定条件（如达到一定大小或一定时间间隔），会将这些消息写入到对应的日志文件中。
- 新的Segment文件会不断创建，每个Segment文件都有一个基于时间或偏移量的命名，方便管理和查找。
刷盘机制：
- Kafka通过定期刷盘或者在某些关键操作（如日志段滚动）时将内存中的数据真正持久化到磁盘。
- 刷盘可以保证即使Kafka Broker崩溃，数据也不会丢失。刷盘的频率可以通过配置参数（如log.flush.interval.messages、log.flush.interval.ms等）来控制。

Topic（主题）：
- 是Kafka进行数据分类的逻辑概念，不同类型的数据可以发送到不同的主题。一个主题可以有多个分区。
Partition（分区）：
- 主题的物理分区，每个分区是一个有序的、不可变的消息序列。分区可以分布在不同的Broker上，提供数据的并行处理和高可用性。
Broker：
- Kafka服务器实例，负责接收、存储和转发消息。每个Broker可以管理多个分区。
Producer（生产者）：
- 负责将数据发送到Kafka集群的客户端应用程序，通过分区策略决定消息发送到哪个分区。
Consumer（消费者）：
- 从Kafka集群中读取消息的客户端应用程序。消费者可以订阅一个或多个主题，并按照一定的消费策略消费消息。
Replication（副本）：
- Kafka通过副本机制来保证数据的高可用性。每个分区可以有多个副本，其中一个副本为领导者（Leader），其他为追随者（Follower）。领导者负责处理读写请求，追随者从领导者同步数据。当领导者故障时，会从追随者中选举出新的领导者。
Offset（偏移量）：
- 每个分区中的消息都有一个唯一的偏移量，它是消息在分区中的位置标识。消费者通过偏移量来记录自己消费到的位置，以便在重启或故障恢复后能继续从正确的位置消费。

星途面试题库