面试题：Redis AOF重写专家级问题

AOF 重写与主从复制的相互影响及配置考虑

重写对主从复制的影响
- 网络带宽：AOF 重写过程中，主节点会生成新的 AOF 文件。如果重写频率过高，在重写期间，主节点可能会因为生成新 AOF 文件并传输给从节点而占用大量网络带宽，影响主从复制的数据同步。例如，当重写产生的新 AOF 文件较大时，在网络带宽有限的情况下，可能会导致从节点数据同步延迟。
- 数据一致性：在 AOF 重写期间，主节点可能会有新的写操作。如果重写完成后，新的 AOF 文件还未及时同步到从节点，而此时主节点发生故障，可能会导致从节点数据与新的 AOF 文件不一致。例如，主节点在重写过程中收到一个 SET key value 操作，重写完成后新 AOF 文件包含该操作，但从节点还未收到此更新，就会出现数据差异。
配置考虑
- 重写频率：合理设置 auto - aof - rewrite - min - size 和 auto - aof - rewrite - percentage 参数。auto - aof - rewrite - min - size 用于设置 AOF 文件进行重写的最小大小，auto - aof - rewrite - percentage 表示当前 AOF 文件大小超过上次重写后 AOF 文件大小的百分比时触发重写。避免重写过于频繁，可适当调大这两个参数值。例如，将 auto - aof - rewrite - min - size 设置为 64MB，auto - aof - rewrite - percentage 设置为 200，即当 AOF 文件大小超过上次重写后大小的两倍且大于 64MB 时触发重写。
- 重写时间：可以选择在系统低峰期进行 AOF 重写，通过配置定时任务（如 crontab），在低峰时段手动触发 BGREWRITEAOF 命令，减少对主从复制的影响。

AOF 重写与哨兵机制的相互影响及配置考虑

重写对哨兵机制的影响
- 主节点状态判断：AOF 重写过程可能会使主节点的 CPU 使用率短暂升高，因为重写需要对内存中的数据进行序列化操作生成新的 AOF 文件。如果哨兵配置的 down - after - milliseconds 时间过短，可能会误判主节点为下线状态。例如，在 AOF 重写时，主节点 CPU 使用率升高导致响应延迟，而哨兵在短时间内没有收到主节点的心跳，就可能错误地将主节点标记为下线。
- 故障转移：当主节点因为 AOF 重写出现短暂性能问题导致故障转移时，新选举的主节点可能会因为 AOF 重写未完成或新旧 AOF 文件不一致等问题，影响数据的完整性和一致性。例如，新主节点基于未完成重写的 AOF 文件进行数据恢复，可能会丢失部分重写过程中的数据。
配置考虑
- 哨兵参数调整：适当增大哨兵的 down - after - milliseconds 参数值，使哨兵有足够时间判断主节点是正常的性能波动（如 AOF 重写导致的）还是真正的故障。例如，将 down - after - milliseconds 从默认的 30000 毫秒（30 秒）调整为 60000 毫秒（60 秒）。
- 故障转移策略：在故障转移后，确保新主节点能正确处理 AOF 文件。可以在哨兵的配置文件中，通过脚本（如 client - reconfig - script）在故障转移后对新主节点的 AOF 文件进行检查和修复，保障数据一致性。

综合配置以保障系统稳定性和高性能

监控与预警：通过 Redis 自带的监控工具（如 INFO 命令）以及外部监控系统（如 Prometheus + Grafana），实时监控 AOF 文件大小、重写频率、主从复制延迟、哨兵状态等指标。设置合理的预警阈值，当 AOF 文件增长过快、重写频率过高或主从复制延迟超过一定范围时，及时发出警报，以便运维人员及时调整配置。
资源规划：根据业务预估系统的读写负载，合理分配服务器资源。对于高并发读写的 Redis 集群，确保有足够的 CPU、内存和网络带宽资源来支持 AOF 重写、主从复制和哨兵机制的正常运行。例如，增加服务器内存，减少 AOF 重写时的磁盘 I/O 压力，提高重写速度；增加网络带宽，保障主从复制的数据传输效率。
测试与验证：在生产环境部署前，进行充分的模拟测试。模拟高并发读写场景下 AOF 重写、主从复制和哨兵机制的运行情况，验证各项配置的合理性。通过不断调整配置参数，找到最适合业务场景的配置方案，确保系统在高并发环境下的稳定性和高性能。

面试题：Redis AOF重写专家级问题

知识考点

面试题答案

AOF 重写与主从复制的相互影响及配置考虑

AOF 重写与哨兵机制的相互影响及配置考虑

综合配置以保障系统稳定性和高性能