面试题：Redis HyperLogLog的误差控制及应用场景

理解Redis HyperLogLog的误差范围

Redis HyperLogLog 是一种概率性数据结构，用于近似计算集合的基数（不重复元素的数量）。它通过牺牲一定的精度来换取极小的内存占用。其误差范围通常在 0.81% 左右，具体误差与 HyperLogLog 内部的哈希函数以及桶的数量有关。它的误差是相对误差，并非绝对误差，即误差会随着基数增大而增大，但相对比例基本稳定。

控制误差

选择合适的精度：Redis HyperLogLog 内部通过配置不同的参数来调整精度。在 Redis 中，默认的精度配置能满足大多数场景。如需更高精度，可以适当增加 HyperLogLog 内部桶的数量，但这会增加内存使用。不过通常情况下，默认精度已经足够，因为它在内存占用和精度之间做了很好的平衡。
多次测量取平均：在允许重复计算基数的场景下，可以多次使用 HyperLogLog 进行基数估计，然后对结果取平均值，这样能在一定程度上减小误差。但这种方法会增加计算开销。

适合使用Redis HyperLogLog进行基数估计的实际业务场景

网站UV统计：统计网站每天的独立访客数量。由于访客数量庞大，如果使用传统的集合存储每个访客ID来统计基数，会消耗大量内存。而 HyperLogLog 能用极小的内存近似统计出独立访客数量，误差在可接受范围内。例如，一个大型电商网站每天有百万甚至千万级别的访客，使用 HyperLogLog 可以高效且经济地统计出每日 UV。
广告曝光去重：在广告投放业务中，需要统计广告的独立曝光次数，即同一个用户多次看到广告只算一次曝光。HyperLogLog 可以用于快速估计不同用户看到广告的数量，有效控制成本并评估广告效果。比如，某在线广告平台每天有海量的广告曝光请求，利用 HyperLogLog 能够实时、近似地统计出独立曝光数。
游戏活跃用户统计：统计游戏每天、每周或每月的活跃玩家数量。游戏用户数量众多，使用 HyperLogLog 可以以较低的内存开销得到活跃玩家基数的近似值，帮助游戏运营团队了解游戏的活跃情况。例如一款热门手游，每日活跃玩家可能达到几十万甚至上百万，HyperLogLog 可以快速给出活跃玩家数量的估计值。

面试题：Redis HyperLogLog的误差控制及应用场景

知识考点

面试题答案

理解Redis HyperLogLog的误差范围

控制误差

适合使用Redis HyperLogLog进行基数估计的实际业务场景