面试题答案
一键面试中位数绝对偏差聚合(MAD)与其他离散程度分析方法对比
- 中位数绝对偏差聚合(MAD)
- 优点:
- 对异常值不敏感。因为基于中位数计算,不像标准差依赖均值,当数据中有极端值时,中位数受影响小,所以MAD能更稳健地反映数据离散情况。例如在金融数据中,偶尔出现的巨额交易不会过度影响MAD的计算结果。
- 计算相对简单直观,只需计算每个数据点与中位数的绝对偏差,再取中位数。
- 缺点:
- 缺乏像标准差那样明确的概率解释。标准差在正态分布中有清晰的与概率相关的含义(如大约68%的数据在均值±1个标准差范围内),而MAD较难从概率角度解读。
- 相较于标准差,在某些统计分析中应用不够广泛,相关理论和工具支持相对少。
- 优点:
- 标准差
- 优点:
- 数学性质良好,在许多统计理论和模型(如正态分布、线性回归等)中有广泛应用和深入研究,便于进一步的数据分析和推断。
- 具有明确的概率解释,在正态分布假设下,能清晰表示数据在均值周围的分布情况,方便理解数据的离散程度与整体分布关系。
- 缺点:
- 对异常值非常敏感。均值易受极端值影响,而标准差基于均值计算,所以少量极端值可能导致标准差大幅增大,不能准确反映数据主体的离散程度。比如在员工工资数据中,若有少数高管超高工资,会使标准差变大,夸大整体工资的离散程度。
- 优点:
在实际项目中融合使用方法
- 数据探索阶段:
- 先计算MAD和标准差。MAD可快速识别数据是否存在极端离散情况,因为其对异常值不敏感,能给出一个相对稳定的离散度量。同时,标准差也能提供基于传统统计理论的离散信息。通过对比两者,若MAD较小而标准差较大,提示可能存在异常值。
- 例如在分析电商用户购买金额数据时,先用MAD和标准差初步判断数据离散特征,若发现差异,进一步排查异常订单。
- 异常检测场景:
- 结合MAD和标准差进行异常检测。利用MAD对异常值不敏感的特点,设置基于MAD的初步异常阈值。例如,若数据点与中位数的绝对偏差大于k倍MAD(k根据经验或数据特点确定),标记为疑似异常。
- 再用标准差进行二次筛选,对于疑似异常点,若其偏离均值超过一定倍数标准差(如3倍标准差,适用于近似正态分布数据),则确认为异常。如在网络流量监测中,先用MAD过滤出可能的异常流量,再用标准差精确判断。
- 模型构建与评估:
- 在构建机器学习或统计模型时,对于特征数据,若希望模型对异常值有一定鲁棒性,可在特征预处理阶段使用MAD对数据进行标准化(类似基于标准差的标准化),即$(x - median) / MAD$。
- 在评估模型预测误差的离散程度时,可同时汇报基于MAD和标准差的指标。比如在时间序列预测中,用MAD评估预测误差的稳健离散程度,用标准差结合正态分布假设评估误差的整体分布情况。