当前位置: 首页 > news >正文

信息论与编码篇---马氏距离

考虑数据相关性的高级距离度量——马氏距离(Mahalanobis Distance)。它由印度统计学家普拉桑塔·钱德拉·马哈拉诺比斯(Prasanta Chandra Mahalanobis)于1936年提出,是多元统计分析中的基石。

我们将从统计直觉、数学本质、几何解释、与欧氏距离的对比以及一张简洁的总结框图来全面了解它。


马氏距离 详解

1. 核心思想:考虑数据的形状和尺度

马氏距离的革命性在于:它不再假设所有维度是独立同尺度的,而是根据数据的实际分布情况来修正距离

  • 统计视角:在测量一个点与一个分布的距离时,不仅要看绝对偏移量,还要看这个方向上的数据散布程度(方差)以及维度之间的相关性

  • 生活类比:判断一个人是否"异常高",不能只看他的绝对身高(比如190cm)。如果是在 NBA 球员群体中,190cm 可能很普通;如果是在小学生群体中,190cm 就是异常值。马氏距离会自动考虑"群体"的均值和散布。

  • 本质:它度量的是一个点与一个分布之间的标准化距离,同时消除了各维度量纲不同和相关性的影响。

2. 数学定义

马氏距离的定义涉及协方差矩阵,体现了对数据分布的深刻理解。

点 xx 到分布(均值 μμ,协方差矩阵 SS)的马氏距离:

两个点 xx 和 yy 在同一分布下的马氏距离:

其中:

  • x−μ:偏差向量(点相对于均值的偏移)。

  • S−1:协方差矩阵的逆(包含了数据的散布和相关结构信息)。

  • (⋅)T:转置运算。

3. 物理意义与核心特性

① 去相关——旋转坐标系

如果数据存在相关性(例如身高和体重正相关),原始坐标系中的轴并不独立。马氏距离通过协方差矩阵的逆 S−1,实际上对坐标系进行了旋转和缩放

  1. 旋转:使新坐标轴指向数据变异最大的方向(主成分方向)。

  2. 缩放:使每个方向上的变异度(方差)变为1(标准化)。

经过变换后,马氏距离就变成了新空间中的欧氏距离

② 标准化——消除量纲影响

不同维度往往有不同的单位(如身高用厘米,体重用千克)。欧氏距离直接计算数值差,会导致量纲大的维度主导距离。马氏距离通过除以各方向的标准差(体现在协方差矩阵中),实现了无量纲化,所有维度在距离计算中地位平等。

③ 等距面——超椭球

在原始空间中,到均值点具有相同马氏距离的点构成一个超椭球面

  • 椭球方向:由数据的相关结构决定(沿着相关方向拉长)。

  • 椭球大小:由马氏距离值决定。

这与欧氏距离的圆形(或球形)等距面形成鲜明对比。

二维数据等距面对比: 原始数据分布: 欧氏距离等距线: 马氏距离等距线: y▲ y▲ y▲ │ . . . │ ○○○ │ ╱╲ │ . . . . . │ ○○○○○ │ ╱ ╲ │ . . . ● . . │ ○○○●○○○ │ ╱ ● ╲ │ . . . . . │ ○○○○○ │ ╲ ╱ │ . . . │ ○○○ │ ╲╱ └───────► x └───────► x └───────► x 数据呈椭圆分布 圆形忽略数据形状 椭圆形匹配数据形状 (x和y相关) (不合理的等距) (合理的等距)
④ 马氏距离 vs. 欧氏距离
对比维度马氏距离欧氏距离
核心公式(x−μ)TS−1(x−μ)∑(xi−yi)2
是否考虑方差✅ 是(自动标准化)❌ 否(所有维度同等对待)
是否考虑相关性✅ 是(通过协方差矩阵)❌ 否(假设各维度独立)
量纲影响无量纲(消除量纲)受量纲大的维度主导
等距面形状超椭球(匹配数据分布)超球体(各向同性)
适用场景相关数据、异常检测独立同分布数据、高斯噪声

4. 直观类比:身高体重的相关性

假设我们测量一群人的身高(厘米)和体重(公斤):

  • 数据特征:身高和体重通常是正相关的——高的人一般也更重。

  • 分布形状:在二维平面上,数据点形成一个倾斜的椭圆,而不是正圆。

现在有两个新样本:

  • A:身高170cm,体重70kg(靠近椭圆中心,正常)

  • B:身高170cm,体重40kg(严重偏瘦)

  • C:身高200cm,体重90kg(高大但比例正常)

欧氏距离的判断

  • 计算A到B的距离与A到C的距离,可能认为C的偏差更大(因为200-170=30,90-70=20,综合偏差大)。

马氏距离的判断

  • 对于B:虽然体重偏差只有30kg(70→40),但在"身高170cm"这个条件下,体重40kg极度偏离该身高的正常体重范围(沿着椭球的短轴方向,概率密度极低)。马氏距离会很大。

  • 对于C:虽然身高偏差30cm,但在"身高200cm"的条件下,体重90kg是符合比例的正常值(沿着椭圆的长轴方向,概率密度尚可)。马氏距离会相对较小。

结论:马氏距离告诉我们,B比C更"异常",尽管欧氏距离可能给出相反的结论。

5. 应用场景

  • 异常检测(Outlier Detection)

    • 识别数据集中远离主体分布的异常点。马氏距离是多元异常检测的经典方法。

    • 金融风控:识别异常的交易行为。

    • 工业质检:发现生产过程中的异常产品。

  • 模式识别与分类

    • 线性判别分析(LDA):核心就是基于马氏距离进行分类。

    • 马氏距离分类器:对于每类数据估计均值和协方差,新样本属于马氏距离最小的类别。

  • 聚类分析

    • 在某些需要考虑数据形状的聚类算法中,使用马氏距离可以更好地识别椭球形簇。

  • 近红外光谱分析

    • 光谱数据维度高且高度相关,马氏距离常用于判断待测样本是否在模型适用范围内。

  • 图像处理

    • 颜色空间中的颜色距离计算,考虑通道间的相关性。

6. 使用注意事项

  • 需要足够样本:协方差矩阵的准确估计需要样本数远大于维度数,否则矩阵可能奇异(不可逆)。

  • 假设多元正态:虽然马氏距离不强制要求正态分布,但其许多优良性质(如卡方分布)在正态假设下成立。

  • 计算复杂度:涉及矩阵求逆,计算量比欧氏距离大得多。


马氏距离总结框图

下面这张Mermaid框图简洁明了地展示了马氏距离的核心逻辑、几何本质、数学基础与典型应用。

总结一句话

马氏距离是懂数据的距离——它看数据形状(协方差)行事,先旋转去除相关,再缩放消除量纲,在扭曲的原始空间中画出最合理的椭球等高线。

http://www.jsqmd.com/news/387640/

相关文章:

  • 题解:洛谷 P5736 【深基7.例2】质数筛
  • 题解:洛谷 P5735 【深基7.例1】距离函数
  • 单北斗变形监测在大坝安全和地质灾害预警中的应用与优势
  • 长豆荚目标检测:Faster R-CNN改进模型实战与优化 - 教程
  • 【每日一题】LeetCode 190. 颠倒二进制位
  • AVIF 如何转 PNG?几种常见在线转换方案对比
  • C++中的指针 之二
  • C++中的指针 之一
  • 2026最新AI大模型应用开发的核心技术学习线路看这里,程序员小白必看:大模型应用开发,收藏这份超全学习指南!
  • WebFlux vs MVC:Gateway集成若依框架的技术选型之争 - 实践
  • 掌握应用开发学习路线,大模型开发入门指南:小白也能轻松掌握的AI应用开发流程与实战(收藏版)
  • C++中的指针
  • prompt实践
  • AI_Agent也有体检中心了?AgentDoG开源框架,带你入门智能体安全防护
  • GLM-5与MiniMax-M2.5性能对比,小白程序员必看(收藏版)
  • CppCon 2025 学习:C++23 deducing this
  • 2026 Agent元年!小白程序员必备:大模型学习路线图+精选资源,收藏这份高薪指南!
  • AI大模型从入门到精通:小白程序员必备学习路线(2026最新版)
  • 导师严选!继续教育专用AI论文软件 千笔·专业学术智能体 VS 学术猹
  • Comsol流固耦合注浆及冒浆分析。 采用其中达西定律模块及固体力学模块,通过建立质量源项、体...
  • 信息论与编码篇---欧式距离
  • 学长亲荐!更贴合研究生需求的降AI率平台,千笔·降AI率助手 VS 云笔AI
  • 导师严选! AI论文平台 千笔写作工具 VS WPS AI 更贴合自考需求
  • [NOIP2025 T2] 清仓甩卖 题解
  • 告别低效繁琐!降AI率平台 千笔·专业降AI率智能体 VS 文途AI
  • 实测对比后!千笔·专业学术智能体,专科生论文写作神器
  • 隧道内车距监测,低光环境测距防追尾,输出安全提醒。
  • 江苏美学植发医院排行更新,2026年这些医院上榜,植发/微针植发/发际线种植/美学植发/不剃发植发,美学植发机构推荐排行 - 品牌推荐师
  • 数据结构DS-KMP算法(c++实现)
  • 一键关闭Win杀毒和禁止系统更新,Windows轻松设置