面试题：复杂业务场景下Kafka负载均衡的深度优化

主题分区设计
- 对于不同类型的消息（如订单创建、库存更新、物流跟踪），为每个类型创建独立的主题。
- 根据业务规模和预计流量，合理分配每个主题的分区数量。例如，流量较大且处理复杂度高的订单创建主题，可以分配较多分区；物流跟踪主题如果流量相对稳定且处理简单，可适当减少分区。
- 分区分配应尽量均匀，避免数据倾斜。例如，可以按照某种业务标识（如用户ID、订单ID等）进行分区，使得同一业务单元的数据尽量分布在同一分区，减少跨分区处理开销。
消费者组设计
- 为每个主题或相关主题集合创建独立的消费者组。这样不同业务逻辑的处理可以并行且互不干扰。
- 消费者组内的消费者数量应与主题分区数量相匹配。如果消费者数量少于分区数量，会有部分分区得不到及时处理；如果消费者数量多于分区数量，会造成资源浪费且部分消费者处于空闲状态。
副本机制
- 为每个分区设置多个副本，以提高数据的容错性和可用性。副本的分布应遵循机架感知原则，避免所有副本集中在同一机架上，防止机架故障导致数据丢失。

Broker 配置
- num.partitions：设置主题的默认分区数，可根据业务预估流量进行调整。
- default.replication.factor：设置主题副本的默认因子，一般设置为 3 以保证高可用性。
- broker.id：每个 Broker 的唯一标识，确保集群内每个 Broker 的 broker.id 不同。
Topic 配置
- retention.ms：设置消息在 Kafka 中保留的时长，根据业务需求合理设置，避免占用过多磁盘空间。
- min.insync.replicas：指定一个分区必须保持同步的最小副本数。如果副本数低于这个值，分区将被标记为不可用，可设置为 2 以保证数据一致性。
Consumer 配置
- group.id：消费者组的唯一标识，同一消费者组内的消费者共享消费进度。
- auto.offset.reset：指定消费者在找不到已提交的偏移量或偏移量无效时的处理策略，一般设置为 earliest 或 latest。earliest 表示从分区开头开始消费，latest 表示从分区末尾开始消费。

数据倾斜
- 挑战：部分分区数据量过大，导致处理压力集中在少数分区和消费者上，影响整体性能。
- 应对措施：优化分区策略，确保数据均匀分布；可以采用一致性哈希算法等更合理的分区算法；监控分区负载情况，必要时手动调整分区数据分布。
副本同步延迟
- 挑战：副本同步延迟可能导致数据不一致，甚至在主副本故障时无法及时切换。
- 应对措施：监控副本同步状态，设置合理的 replica.lag.time.max.ms 参数，当副本同步延迟超过该时间时，将副本从 ISR（In - Sync Replicas）中移除；优化网络配置，减少网络延迟对副本同步的影响。
高流量冲击
- 挑战：突发的高流量可能导致 Kafka 集群处理能力不足，出现消息积压。
- 应对措施：根据历史流量数据进行容量规划，预留一定的处理能力；在高流量期间，可以动态增加消费者数量，通过 Kafka 的动态扩展机制实现；采用限流措施，如对生产者进行限流，避免流量过大压垮集群。
消费者故障
- 挑战：消费者故障可能导致分区消费中断，消息积压。
- 应对措施：采用自动重启机制，确保消费者故障后能快速恢复；启用消费者组的再平衡机制，当有消费者故障时，其他消费者可以接管其负责的分区。

星途面试题库