星途面试题库

面试题：Redis队列在实现MySQL批量数据写入场景下，如何处理数据的重复问题

在使用Redis队列实现MySQL批量数据高效写入时，假设数据可能存在重复情况，你会采取哪些方法在Redis端识别并处理这些重复数据，以避免重复写入MySQL数据库？

45.9万热度

难度

数据库Redis

知识考点

AI 面试

面试题答案

使用Set数据结构：
- 原理：Redis的Set数据结构具有唯一性，当向Set中添加元素时，若元素已存在则添加失败。在处理要写入MySQL的数据时，将数据的唯一标识（如主键等）添加到Set中。每次从队列取出数据准备写入MySQL前，先检查Set中是否已存在该数据的唯一标识。若存在，则跳过此次写入；若不存在，则将唯一标识加入Set并写入MySQL。
- 示例代码（Python）：

import redis

r = redis.Redis(host='localhost', port = 6379, db = 0)
data_unique_id = 'data_123'  # 数据的唯一标识
if not r.sismember('unique_data_set', data_unique_id):
    r.sadd('unique_data_set', data_unique_id)
    # 执行写入MySQL的操作

利用Sorted Set和时间戳：
- 原理：Sorted Set可按分数（score）排序，我们可以用时间戳作为分数。当有新数据要处理时，将数据的唯一标识和当前时间戳作为分数添加到Sorted Set中。每次从队列取出数据准备写入MySQL前，检查Sorted Set中该唯一标识对应的时间戳。如果时间戳相同或距离当前时间很近（在可接受的重复判断时间范围内），则认为是重复数据，跳过写入；否则，将其加入Sorted Set并写入MySQL。
- 示例代码（Python）：

import redis
import time

r = redis.Redis(host='localhost', port = 6379, db = 0)
data_unique_id = 'data_123'
current_timestamp = time.time()
existing_timestamp = r.zscore('unique_data_sorted_set', data_unique_id)
if not existing_timestamp or current_timestamp - existing_timestamp > 60:  # 假设60秒内算重复
    r.zadd('unique_data_sorted_set', {data_unique_id: current_timestamp})
    # 执行写入MySQL的操作

布隆过滤器：
- 原理：布隆过滤器是一种概率型数据结构，它可以高效地判断一个元素是否在集合中。它通过多个哈希函数将元素映射到一个位数组（bit - array）中，并将相应的位设置为1。在判断元素是否存在时，通过同样的哈希函数映射到位数组，若所有对应位都是1，则认为元素可能存在（有一定误判率）；若有一位为0，则元素一定不存在。在处理数据时，将数据的唯一标识通过布隆过滤器处理，若布隆过滤器判断可能已存在，则跳过写入；若判断不存在，则写入MySQL并更新布隆过滤器。
- 示例代码（Python，使用redis - py - bloomfilter库）：

from redisbloom.client import Client

bf = Client(host='localhost', port = 6379, db = 0)
data_unique_id = 'data_123'
if not bf.exists('data_bloom_filter', data_unique_id):
    bf.add('data_bloom_filter', data_unique_id)
    # 执行写入MySQL的操作