星途面试题库

面试题：复杂业务下Redis多种数据结构协同架构设计

在一个电商实时推荐系统中，需要实时处理用户行为数据（如浏览、点击、购买），并根据这些数据为用户提供个性化商品推荐。请基于Redis的链表、哈希表、有序集合、位图等数据结构，设计一套完整的架构方案，详细说明每个数据结构在其中所承担的角色、数据交互流程以及如何保证系统的高可用性和高性能。

43.3万热度

难度

数据库Redis

知识考点

AI 面试

面试题答案

一、架构方案概述

用户行为数据收集：通过消息队列（如 Kafka）收集实时用户行为数据，保证数据的可靠传输与缓冲。
Redis 数据处理：利用 Redis 的多种数据结构对收集的数据进行处理和存储。
推荐算法计算：从 Redis 中获取处理后的数据，运用推荐算法（如协同过滤、深度学习模型等）生成推荐结果。
推荐结果展示：将推荐结果返回给客户端展示。

二、Redis 数据结构角色

（一）链表（List）

承担角色：用于临时存储用户行为数据，例如在消息队列消费端，将接收到的用户行为数据以链表形式暂存。每个链表节点存储一条完整的用户行为记录，如{user_id, action_type, product_id, timestamp}。
优势：链表的插入和删除操作效率高，适合高并发的实时数据接收场景。

（二）哈希表（Hash）

承担角色：存储用户的基本信息和行为统计数据。以用户 ID 作为哈希表的键，哈希表的字段（field）可以是不同的行为类型（浏览、点击、购买），值为该行为的次数统计。例如Hash[user_id] = { "view": 10, "click": 5, "purchase": 2 }。同时，也可存储商品的元数据，以商品 ID 作为键，字段为商品属性（如价格、类别等）。
优势：适合存储和查询结构化的数据，通过哈希表可以快速定位用户或商品的相关信息。

（三）有序集合（Sorted Set）

承担角色：用于根据用户行为对商品进行排序，以生成推荐列表。例如，以商品 ID 作为成员（member），用户对商品的行为热度（可根据浏览、点击、购买次数加权计算）作为分数（score）。这样可以按照热度从高到低获取最受用户关注的商品，为推荐算法提供数据支持。
优势：能够高效地进行范围查询和排序操作，满足推荐系统对热门商品排序的需求。

（四）位图（Bitmap）

承担角色：用于记录用户对商品的行为状态，例如用户是否浏览过某个商品。以用户 ID 作为位图的键，商品 ID 经过某种映射后作为位图的偏移量（offset）。如果用户浏览过该商品，对应偏移量位置设为 1，否则为 0。这样可以快速判断用户对大量商品的行为历史，避免重复推荐用户已浏览过的商品。
优势：位图占用内存空间小，适合存储大规模的用户行为状态数据，并且操作效率高。

三、数据交互流程

数据收集阶段：用户行为数据通过消息队列（如 Kafka）发送到消费端。消费端将接收到的数据先以链表形式存储在 Redis 中，便于后续处理。
数据处理阶段：从链表中读取用户行为数据，根据行为类型更新哈希表中的用户行为统计数据。同时，根据行为热度更新有序集合中商品的分数。对于浏览行为，更新位图中用户对商品的浏览状态。
推荐计算阶段：推荐算法从哈希表中获取用户信息和行为统计数据，从有序集合中获取热门商品列表，从位图中获取用户行为历史，综合这些数据生成个性化推荐结果。
结果展示阶段：将推荐结果返回给客户端展示给用户。

四、高可用性保证

Redis 主从复制：设置 Redis 主从架构，主节点负责写操作，从节点复制主节点的数据。这样当主节点出现故障时，从节点可以升级为主节点，保证系统的可用性。
哨兵（Sentinel）机制：部署 Redis Sentinel，它可以监控 Redis 主从节点的运行状态。当主节点发生故障时，Sentinel 能够自动进行故障转移，选举新的主节点，并通知其他从节点进行切换。
持久化策略：采用 AOF（Append - Only - File）和 RDB（Redis Database）两种持久化方式。AOF 可以保证数据的实时持久化，RDB 可以进行数据的定期全量备份。在 Redis 重启时，可以通过加载持久化文件恢复数据。

五、高性能保证

缓存优化：合理设置 Redis 缓存的过期时间，对于不经常变化的用户信息和商品元数据，可以设置较长的过期时间。对于实时性要求高的用户行为数据，设置较短的过期时间或者不设置过期时间。
数据分片：当数据量较大时，可以采用 Redis Cluster 进行数据分片。将数据均匀分布在多个 Redis 节点上，减轻单个节点的压力，提高读写性能。
异步处理：对于一些耗时较长的操作，如推荐算法的计算，可以采用异步方式处理。例如将计算任务发送到消息队列，由专门的计算服务从队列中获取任务进行处理，避免阻塞实时数据处理流程。