面试题：消息队列 Kafka 主题（Topic）动态调整分区数时，可能会遇到哪些问题以及如何解决？

使用 Kafka 命令行工具：通常使用 kafka-topics.sh 脚本，通过 --alter 选项来增加主题的分区数。例如：

bin/kafka - topics.sh --bootstrap - servers <bootstrap - servers> --alter --topic <topic - name> --partitions <new - partition - count>

Kafka 内部处理：Kafka 控制器（Controller）负责协调分区调整。控制器首先向所有的 broker 发送元数据变更请求，通知它们主题的分区数发生了变化。然后，Kafka 会重新分配分区副本，确保数据的冗余和均衡。

原因：
- 在分区调整过程中，如果某个 broker 节点出现故障，且该节点上的数据还未完全复制到新的分区副本中，可能会导致部分数据丢失。
- 若在调整分区数时，生产者还在向原主题写入数据，而新的分区分配尚未完成，可能会有数据被写入到未完成调整的分区，导致数据丢失。
解决方案：
- 启用幂等生产者：生产者端设置 enable.idempotence=true，这样生产者在重试发送消息时，Kafka 会保证消息不会重复写入，减少因重试导致的数据丢失风险。
- 设置合理的 acks：生产者设置 acks = all，确保消息被所有副本都确认接收后才视为成功，这样即使某个副本所在 broker 故障，只要有其他副本存活，数据就不会丢失。
预防措施：
- 提前备份数据：在调整分区数之前，可以使用 Kafka 自带的工具（如 kafka - consumer - offsets.sh 结合 kafka - consumer - groups.sh）将主题的偏移量信息备份，以便在出现数据丢失时可以恢复。
- 监控 broker 状态：在调整分区数过程中，实时监控 broker 的状态，一旦发现某个 broker 出现异常，立即暂停分区调整操作，待问题解决后再继续。

原因：
- 数据迁移开销：增加分区数后，Kafka 需要将原分区的数据迁移到新的分区，这会占用网络带宽和磁盘 I/O 资源，导致整体性能下降。
- 负载不均衡：如果新的分区分配不合理，可能会导致部分 broker 负载过高，而其他 broker 负载过低，影响整体吞吐量。
解决方案：
- 控制数据迁移速率：可以通过调整 replica.fetch.max.bytes 和 replica.fetch.min.bytes 等参数，控制副本之间数据同步的速率，避免因数据迁移过快影响正常业务。
- 手动调整分区分配：使用 kafka - preferred - replica - election.sh 工具手动指定分区的首选副本，使负载分布更均衡。也可以使用 kafka - reassign - partitions.sh 工具对分区进行重新分配，优化负载。
预防措施：
- 模拟分区调整：在生产环境调整分区数之前，先在测试环境模拟相同的操作，评估对性能的影响，并根据测试结果调整参数。
- 提前规划分区数：在创建主题时，根据业务数据量和增长趋势，合理规划分区数，避免频繁调整分区带来的性能问题。

星途面试题库