当前位置：首页 > news >正文

MAD vs Z-score：哪种异常检测方法更适合你的数据？（附Python代码对比）

news 2026/6/17 9:39:43

MAD vs Z-score：深入解析异常检测的核心方法论与实战选择

在数据科学和业务分析的实际应用中，异常检测扮演着至关重要的角色。无论是金融交易中的欺诈行为识别，还是工业设备传感器数据的异常监控，选择正确的异常检测方法直接决定了模型的准确性和业务价值。本文将深入探讨两种广泛使用的异常检测方法——MAD（Median Absolute Deviation）和Z-score，从理论基础到实际应用场景，帮助您做出明智的技术选择。

1. 异常检测基础：理解数据中的"异常"

异常值（Outliers）是指与数据集中大多数观测值显著不同的数据点。这些点可能由测量误差、数据录入错误或真实的极端事件引起。在统计学中，异常值通常被定义为与数据整体分布模式显著偏离的观测值。

异常检测的核心挑战在于：

如何定义"正常"与"异常"的边界
如何处理不同尺度和分布的数据
如何在保持高召回率的同时控制误报率

提示：异常检测不是简单的数学计算，而是需要结合业务场景理解的决策过程。同样的数值在不同业务背景下可能具有完全不同的意义。

1.1 异常检测的典型应用场景

金融风控：识别异常交易行为
工业物联网：监测设备传感器异常读数
医疗健康：发现异常生理指标
网络安全：检测异常访问模式

2. MAD方法：基于中位数的鲁棒检测

MAD（Median Absolute Deviation）是一种基于中位数的鲁棒性异常检测方法。与基于均值的方法不同，MAD对极端值不敏感，这使得它在实际应用中表现出色。

2.1 MAD的计算原理

MAD的计算过程可以分为六个清晰步骤：

计算数据集的中位数（Median）
计算每个数据点与中位数的绝对偏差
计算这些绝对偏差的中位数（原始MAD值）
对MAD进行标准化调整（乘以1.4826）
设定异常检测阈值（通常为2.5-3.5倍调整后MAD）
标记超出阈值范围的数据点为异常

import numpy as np from scipy.stats import norm def mad_based_outlier(points, thresh=3.5): """基于MAD的异常检测实现""" med = np.median(points, axis=0) abs_dev = np.absolute(points - med) med_abs_dev = np.median(abs_dev) mod_z_score = norm.ppf(0.75) * abs_dev / med_abs_dev return mod_z_score > thresh

2.2 MAD的优势与局限

优势：

对异常值具有天然的鲁棒性
适用于小样本数据集（低至8个样本）
不受极端值影响，估计稳定
对非正态分布数据表现良好

局限：

计算复杂度略高于Z-score
对于高度偏态分布可能需要调整阈值
多变量场景需要扩展实现

3. Z-score方法：基于标准差的经典检测

Z-score是一种基于均值与标准差的传统异常检测方法。它衡量数据点距离均值有多少个标准差，是统计学中最常用的标准化方法之一。

3.1 Z-score的计算原理

Z-score的计算公式为：

$$ z = \frac{x - \mu}{\sigma} $$

其中：

$x$ 是数据点
$\mu$ 是数据集的均值
$\sigma$ 是数据集的标准差

Python实现示例：

def z_score_outlier(points, threshold=3): """基于Z-score的异常检测实现""" mean = np.mean(points) std = np.std(points) z_scores = [(x - mean) / std for x in points] return np.abs(z_scores) > threshold

3.2 Z-score的优势与局限

优势：

计算简单高效
理论基础直观易懂
对于严格正态分布数据非常有效
广泛支持于各种统计软件和库

局限：

对异常值敏感（均值与标准差都受极端值影响）
要求数据近似正态分布
小样本情况下表现不稳定

4. 关键对比：MAD与Z-score的实战选择指南

为了更清晰地理解两种方法的适用场景，我们通过以下对比表格展示核心差异：

特性	MAD	Z-score
中心趋势度量	中位数	均值
离散度度量	绝对偏差中位数	标准差
对异常值的鲁棒性	高	低
分布假设	无严格假设	最好近似正态分布
计算复杂度	中等	低
小样本表现	优秀	一般
多变量扩展	需要专门实现	可直接应用
典型阈值	2.5-3.5倍MAD	2-3个标准差

4.1 何时选择MAD？

数据包含潜在异常值时
样本量较小的情况下
数据分布未知或非正态时
需要高度鲁棒性的应用场景

4.2 何时选择Z-score？

数据近似正态分布且无极端异常值时
计算效率是首要考虑因素
需要简单直观的解释性时
处理多变量且各变量独立同分布时

5. 进阶技巧：提升异常检测效果的实用策略

5.1 动态阈值调整

固定阈值在实际应用中往往效果有限。考虑以下动态调整策略：

def dynamic_mad_outlier(points, sensitivity=1.0): """基于数据特性动态调整MAD阈值""" med = np.median(points) abs_dev = np.abs(points - med) mad = 1.4826 * np.median(abs_dev) # 基于数据偏度和峰度调整阈值 skewness = stats.skew(points) kurt = stats.kurtosis(points) adj_factor = 1 + sensitivity * (abs(skewness) + abs(kurt))/2 return abs_dev > (3.5 * adj_factor * mad)

5.2 混合方法策略

在某些场景下，结合两种方法可能获得更好效果：

先用MAD过滤掉极端异常值
在"清洗"后的数据上应用Z-score
综合两种结果做出最终判断

5.3 业务场景适配

无论选择哪种方法，都需要考虑：

业务风险偏好：误报与漏报的成本差异
数据更新频率：实时检测与批量处理的差异
解释性需求：是否需要向非技术人员解释结果

6. 实战案例：金融交易异常检测

让我们通过一个具体案例展示两种方法的应用差异。假设我们有一组日交易量数据（单位：百万）：

交易量 = [2.1, 2.3, 2.0, 2.2, 2.4, 2.1, 2.3, 15.6, 2.2, 2.1]

6.1 MAD检测结果

mad_outliers = mad_based_outlier(交易量, thresh=3.0) # 结果: [False, False, False, False, False, False, False, True, False, False]

6.2 Z-score检测结果

z_outliers = z_score_outlier(交易量, threshold=2.5) # 结果: [False, False, False, False, False, False, False, True, False, False]

虽然这个简单案例中两种方法得出了相同结论，但在实际业务数据中，当存在多个异常值或数据分布复杂时，结果可能显著不同。

查看全文

http://www.jsqmd.com/news/547962/

Step3-VL-10B-Base轻量级模型部署优势：低显存消耗与快速推理实测

Nexus7二代刷机指南：从LineageOS到Recovery的完整流程

蚂蚁开源AReaL：1.5B推理模型数学能力达88%

昆仑通态屏幕开发入门：从零搭建组态环境到第一个UI（避坑指南）

从‘能工作’到‘优秀’：手把手教你为你的Buck/Boost电路挑选和优化MOSFET驱动

Chord性能对比：YOLOv5/v8在视频分析中的实测

FreeRTOS实战：STM32CubeMX配置USART+DMA实现高效串口通信（附完整代码）

避坑指南：解决Livox Mid-360双雷达点云融合时坐标系错乱与IMU数据混杂问题

VDN vs QMIX：多智能体强化学习中的价值分解算法对比实验

某个线程崩溃，会导致进程退出吗

基于图像的深度学习与MVS三维重建全流程服务支持远程部署定制含pcl/c++/matlab...

Step 3.5 Flash：11B参数实现350 tok/s极速推理

开箱即用！LongCat动物百变秀本地部署指南，小白也能快速上手

保姆级教程：在Ubuntu 20.04上为ZYNQ配置Linaro GCC 10.3交叉编译环境（含阿里云源和依赖库避坑）

TranslateGemma部署避坑指南：常见问题与解决方案

PETRv2-BEV小样本学习效果：有限数据下的迁移能力

Infiniband网络排错指南：从`ibstatus`异常到OpenSM日志分析，一次搞定常见连接问题

为什么传统传感器融合在自动驾驶中总翻车？TransFuser的注意力机制揭秘

Qwen-Image-2512-Pixel-Art-LoRA 模型v1.0 系列作品展：构建一个完整的像素风奇幻世界

从FGSM到DeepFool：六大对抗攻击算法实战解析与代码实现

Skia渲染选OpenGL还是Vulkan？结合Mesa驱动聊聊跨平台图形后端的选择与性能实测

FLUX.1-dev像素艺术生成器教程：CFG值对像素颗粒感影响的实验分析

ThreadLocal内存泄漏警告！多线程MDC使用必须知道的3个避坑点

解放双手：用KUKA示教器白键一键触发复杂工艺，自定义你的快捷指令

SecGPT-14B部署教程：适配国产昇腾910B的vLLM分支编译与性能调优

在AutoDL上从零部署YOLO训练环境：新手避坑指南

RK3588嵌入式Linux开发实战：uboot任意键中断autoboot功能实现

论文AIGC痕迹重？实测10款降AI工具最低1.2元/千字就能把AI率降到5%

实战踩坑：用Java+SpringBoot处理GB28181的RTP PS流，转RTMP推流（附完整代码）

智能网联汽车(CAV)缩略语大全：从C-V2X到VRUCW，一文搞懂所有专业术语