面试题：消息队列 Kafka高并发场景下消息积压对整体架构的影响及解决方案

负面影响

数据一致性问题：消息积压可能导致后续处理依赖的数据未及时处理，使得新数据与旧数据处理逻辑冲突，破坏数据一致性。例如在电商订单系统中，库存扣减消息积压，后续订单支付成功消息先处理，就会出现超卖现象。
系统性能下降：积压消息占用大量内存、磁盘空间，Kafka服务器负载增加，处理新消息能力降低。同时，下游系统长时间等待消息，导致自身资源闲置，整体系统吞吐量下降。
业务流程阻塞：以物流系统为例，订单创建消息积压，后续的发货、运输等流程无法启动，整个业务流程停滞，影响用户体验和业务运转效率。
消息丢失风险：若积压情况持续，磁盘空间耗尽，新消息可能无法写入，导致消息丢失。或者消费者长时间未消费，Kafka可能会删除过期消息，造成数据损失。

解决方案

Kafka参数调整
- 增加分区数：通过增加Kafka主题的分区数，提高并行处理能力。例如原主题只有2个分区，可根据业务预估增加到10个分区。但注意分区数并非越多越好，过多分区会增加管理开销。
- 调整副本因子：在保证数据可靠性前提下，适当降低副本因子，减少数据复制带来的开销，提升写入性能。如从副本因子3调整为2。
- 增大缓冲区：增大生产者的缓冲区大小（如batch.size），允许生产者一次性发送更多消息，减少网络请求次数，提高发送效率。同时调整消费者的缓冲区，加速消息拉取。
上游系统优化
- 限流：在业务入口处对请求进行限流，防止过多请求涌入Kafka。如采用令牌桶算法，每秒只允许固定数量的请求进入系统，避免Kafka短时间内接收过多消息。
- 削峰：利用缓存（如Redis）对高并发请求进行缓存，在流量高峰时先将请求缓存，待高峰过后再逐步发送到Kafka，减轻Kafka压力。
下游系统优化
- 增加消费者实例：根据消息积压情况，增加消费者实例数量，并行消费消息。例如原只有1个消费者实例，可增加到5个。
- 优化消费逻辑：检查并优化消费者的业务处理逻辑，减少不必要的计算和I/O操作，提高消息处理速度。如对数据库查询进行优化，减少查询时间。
监控与预警：搭建监控系统（如Prometheus + Grafana），实时监控Kafka的消息积压量、吞吐量、分区负载等指标。设置合理的预警阈值，当积压量超过阈值时及时通知运维人员，以便快速响应处理。

星途面试题库

面试题：消息队列 Kafka高并发场景下消息积压对整体架构的影响及解决方案

知识考点

面试题答案

负面影响

解决方案