星途面试题库

面试题：结合业务场景深度优化Redis集合对象数据去重

假设你在开发一个社交平台，需要实时统计用户发布的不同话题标签（tag）数量以进行热门话题推荐，同时要确保标签数据的去重。在高并发写入和频繁读取统计结果的场景下，如何基于Redis集合对象进行深度优化？请详细说明数据结构设计、读写操作逻辑以及可能涉及到的Redis特性或模块。

45.3万热度

难度

数据库Redis

知识考点

AI 面试

面试题答案

数据结构设计

使用Redis的Set数据结构：
- 为每个话题标签创建一个Set，Set的成员为发布该话题标签的用户ID。Set天然具备去重功能，这样可以确保每个用户对同一个话题标签的发布操作只被记录一次。例如，对于话题标签“#travel”，对应的Set可能包含用户ID “user1”，“user2” 等。
- 可以使用一个Hash数据结构来存储每个话题标签的统计数量。Hash的field为话题标签，value为该话题标签的数量。例如，HSET tag_count #travel 100 表示话题标签“#travel”的数量为100。

读写操作逻辑

写入操作：
- 使用MULTI和EXEC：当一个用户发布带有话题标签的内容时，开启一个事务。首先向对应的话题标签Set中添加用户ID，然后使用HINCRBY命令增加该话题标签在Hash中的统计数量。
- 示例代码（以Python Redis库为例）：

import redis

r = redis.Redis(host='localhost', port=6379, db = 0)

def publish_post(user_id, tags):
    pipe = r.pipeline()
    for tag in tags:
        pipe.sadd(tag, user_id)
        pipe.hincrby('tag_count', tag, 1)
    pipe.execute()

读取操作：
- 直接从Hash读取：要获取热门话题推荐，直接从存储话题标签数量的Hash中读取数据。可以使用HGETALL获取所有话题标签及其数量，然后根据数量进行排序。
- 示例代码（以Python Redis库为例）：

def get_hot_tags():
    tag_count = r.hgetall('tag_count')
    sorted_tags = sorted(tag_count.items(), key = lambda item: int(item[1]), reverse=True)
    return sorted_tags

可能涉及到的Redis特性或模块

事务特性：通过MULTI和EXEC命令保证写入操作的原子性，防止在高并发场景下出现数据不一致问题。例如，在向Set添加用户ID和增加话题标签数量这两个操作中，要么都执行成功，要么都不执行。
持久化机制：合理配置Redis的持久化策略（RDB或AOF），确保数据在Redis重启后不会丢失。对于这种统计数据，持久化非常重要，以保证热门话题推荐的连续性。
集群模块：如果数据量巨大，可以考虑使用Redis Cluster。它通过数据分片的方式将数据分布在多个节点上，提高读写性能和可扩展性，满足高并发场景下的需求。