面试题：复杂场景下Redis缓存监控与性能调优

1. 监控指标设计

基本性能指标：
- 读写操作次数：通过 INFO 命令获取 keyspace_hits 和 keyspace_misses，分别表示缓存命中次数和未命中次数，计算命中率 hit_rate = keyspace_hits / (keyspace_hits + keyspace_misses)。命中率低可能意味着缓存策略不合理，需要调整。
- 读写操作延迟：使用 latency-monitor 功能，可设置不同的采样周期（如 config set latency-monitor-threshold 100 表示监控延迟超过 100 微秒的操作），记录并分析读写操作的延迟情况，高延迟可能由网络问题、内存不足或 Redis 配置不当引起。
- QPS（Queries Per Second）：统计每秒的读写请求数，反映 Redis 的负载能力。可通过 INFO 命令中的 instantaneous_ops_per_sec 获取。
内存相关指标：
- 内存使用量：从 INFO 命令的 used_memory 获取当前 Redis 实例已使用的内存量，结合 maxmemory 配置（通过 config get maxmemory 获取），计算内存使用率 memory_usage_rate = used_memory / maxmemory。当内存使用率接近 100% 时，可能触发淘汰策略，影响性能。
- 内存碎片率：查看 INFO 命令中的 mem_fragmentation_ratio，该值应尽量接近 1。大于 1 表示存在内存碎片，可能影响内存分配效率和 Redis 性能。
- 内存淘汰情况：监控 INFO 命令中的 evicted_keys，记录被淘汰的键的数量。频繁的淘汰操作可能意味着缓存容量不足或淘汰策略不合适。
连接指标：
- 连接数：通过 INFO 命令中的 connected_clients 获取当前连接到 Redis 实例的客户端数量。过多的连接可能导致资源耗尽，影响性能。
- 最大连接数：可通过 config get maxclients 获取，对比当前连接数与最大连接数，确保不超过限制。
业务相关指标：
- 不同业务的读写频率：为每个业务在 Redis 中设置特定的计数器，每次读写操作时对相应计数器进行自增。通过定期读取计数器值，分析不同业务的读写频率。
- 不同业务的数据量：在写入数据时，记录每个业务的数据大小，定期汇总分析不同业务的数据量占用情况。

2. 监控工具选择

Redis 自带命令：如上述提到的 INFO、latency-monitor 等命令，可直接在 Redis 客户端执行获取相关指标数据。
Prometheus + Grafana：
- Prometheus：使用 Redis exporter（如 redis_exporter）将 Redis 的指标数据暴露为 Prometheus 可采集的格式。配置 Prometheus 定期拉取 Redis exporter 的数据，存储到时间序列数据库中。
- Grafana：连接到 Prometheus，创建各种监控仪表盘，直观展示 Redis 的各项指标，如命中率、延迟、内存使用等，方便实时监控和分析。

3. 性能调优策略

根据命中率调整缓存策略：
- 命中率低：
  - 优化缓存过期时间：对于读频繁但数据相对稳定的业务，适当延长缓存过期时间；对于数据变化频繁的业务，采用更细粒度的缓存更新策略，如在数据更新时及时刷新缓存。
  - 调整缓存粒度：如果缓存粒度太细，导致缓存命中率低，可尝试合并一些相关数据到一个缓存项中；反之，如果缓存粒度太粗，可进行拆分。
  - 采用多级缓存：对于读非常频繁的业务，可引入本地缓存（如 Guava Cache）作为一级缓存，Redis 作为二级缓存，减轻 Redis 的压力，提高整体命中率。
- 命中率高但延迟高：
  - 优化网络配置：检查网络带宽、延迟等情况，确保 Redis 与应用服务器之间网络畅通。可调整网络设备配置，如增加带宽、优化路由等。
  - 调整 Redis 配置：例如增加 maxmemory-policy 配置中的合适淘汰策略（如 allkeys-lru 适用于读多写少场景，volatile-lru 适用于有过期时间的键），优化内存使用；调整 server-threads（Redis 6.0 及以上版本支持多线程）等参数，提升处理能力。
内存相关调优：
- 内存使用率高：
  - 优化数据结构：检查存储在 Redis 中的数据结构，如使用更紧凑的数据类型（如 ziplist 代替 list 存储少量元素），减少内存占用。
  - 清理无用数据：定期清理长时间未使用且已过期的数据，可通过 FLUSHDB（谨慎使用，清空当前数据库）或 DEL 命令删除特定键。
  - 调整缓存容量：根据业务发展和监控数据，合理调整 maxmemory 值，确保 Redis 有足够的内存处理业务需求。
- 内存碎片率高：
  - 重启 Redis：在业务低峰期重启 Redis，释放内存碎片。但重启会导致缓存数据丢失，需提前做好数据备份和恢复方案。
  - 调整分配器：可尝试调整 Redis 的内存分配器，如使用 jemalloc 等不同的分配器，可能改善内存碎片问题。
连接相关调优：
- 连接数过多：
  - 优化客户端连接管理：检查应用程序中 Redis 客户端的连接使用情况，确保及时释放不再使用的连接，可采用连接池技术复用连接，减少连接创建和销毁的开销。
  - 增加 Redis 实例：如果单个 Redis 实例连接数过多，可将业务负载分摊到多个 Redis 实例上，减轻单个实例的压力。

4. 数据一致性保障措施

读写顺序控制：对于对数据一致性要求高的业务，确保写操作完成后再进行读操作。可采用同步写入或使用 Redis 的事务（MULTI、EXEC 命令），保证一组操作的原子性。
缓存更新策略：
- 写后更新缓存：在数据更新到数据库后，立即更新 Redis 缓存。但可能存在更新数据库成功但更新缓存失败的情况，可通过重试机制或引入消息队列进行补偿。
- 写前删除缓存：在更新数据库前先删除 Redis 缓存，避免脏数据。但并发情况下可能出现缓存击穿问题，可结合互斥锁（如使用 SETNX 命令实现）或布隆过滤器来预防。
- 双写屏障：在更新数据库前后都删除缓存，减少脏数据的可能性，但实现较为复杂，需要注意操作顺序和异常处理。
缓存版本控制：为每个业务数据设置版本号，每次数据更新时版本号递增。读取数据时，先获取版本号，与缓存中的版本号对比，不一致则更新缓存，保证缓存数据的一致性。

面试题：复杂场景下Redis缓存监控与性能调优

知识考点

面试题答案

1. 监控指标设计

2. 监控工具选择

3. 性能调优策略

4. 数据一致性保障措施