面试题：消息队列Kafka在实时数据处理应用架构中的角色与基础配置

Kafka在实时数据处理应用中的角色

数据缓冲：Kafka可以作为一个数据缓冲区，在生产者和消费者之间暂存数据。这样，生产者可以快速地将数据发送到Kafka，而不必等待消费者处理完数据，从而提高系统的整体吞吐量。
数据分发：可以将数据分发给多个消费者，不同的消费者可以基于自己的需求从Kafka中拉取数据，实现数据的多用途处理，支持不同业务逻辑对同一数据源的消费。
数据持久化：Kafka将数据持久化到磁盘，即使消费者处理数据出现故障，也可以从Kafka重新获取数据进行处理，保证数据不丢失，确保数据处理的可靠性和可恢复性。

基础配置参数及其作用

bootstrap.servers
- 作用：指定Kafka集群的初始连接点，通常是一个或多个Kafka broker的地址和端口号列表。格式为host1:port1,host2:port2。生产者和消费者在启动时会使用这些地址来发现整个Kafka集群的元数据信息。例如，“kafka1.example.com:9092,kafka2.example.com:9092”。
group.id
- 作用：用于标识消费者组。同一消费者组内的消费者共同消费一组主题分区，每个分区只会被组内的一个消费者消费。不同消费者组之间互不影响，可以独立消费相同主题的数据。例如，在一个订单处理系统中，“order - processing - group”可作为订单处理相关消费者的组ID。
key.serializer 和 value.serializer
- 作用：分别指定消息的键和值的序列化器。Kafka在网络上传输数据时，需要将数据转换为字节数组，这两个参数决定了如何进行转换。常见的序列化器有“org.apache.kafka.common.serialization.StringSerializer”（用于字符串类型数据）、“org.apache.kafka.common.serialization.IntegerSerializer”（用于整数类型数据）等。
key.deserializer 和 value.deserializer
- 作用：与序列化器相对应，用于将从Kafka中拉取的字节数组数据反序列化为应用程序可识别的数据类型。消费者使用这两个参数来处理接收到的消息。例如，对于字符串类型的消息，可使用“org.apache.kafka.common.serialization.StringDeserializer”。
auto.offset.reset
- 作用：当消费者组首次启动或者没有找到上次消费的偏移量时，该参数决定消费者从何处开始消费。取值有“earliest”（从分区的起始位置开始消费）、“latest”（从分区的最新消息开始消费，错过之前的消息）、“none”（如果没有找到之前的偏移量则抛出异常）。
enable.auto.commit
- 作用：指定消费者是否自动提交偏移量。如果设置为“true”，消费者会定期自动将已消费消息的偏移量提交到Kafka，这样在消费者重启时可以从上次提交的偏移量继续消费。如果设置为“false”，则需要应用程序手动管理偏移量的提交，能更精确地控制消费进度，但也增加了编程的复杂性。

星途面试题库

面试题：消息队列Kafka在实时数据处理应用架构中的角色与基础配置

知识考点

面试题答案

Kafka在实时数据处理应用中的角色

基础配置参数及其作用