当前位置: 首页 > news >正文

信息论(七):对数似然比与相对熵(KL散度)

“对数似然比”听起来很复杂,但当你一层层剥开它的面纱,就会发现它其实是由非常简单、非常自然的概念构成的。

“似然比”(likelihood)是比较同一事件的两种说法。假设你对同一个变量 X 有两个不同的概率分布:

P(x):你的“真实”模型,或者你认为正确的分布
Q(x):一个替代模型,或者一个假设,或者一个近似值

似然比是:$ \frac{P(x)}{Q(x)} $

直观理解,它回答了以下问题:“对于这个特定的结果 x,P 比 Q 更相信(或更不相信)它吗?”

如果 P(x) = 0.2 但 Q(x) = 0.05,则:$ \frac{P(x)}{Q(x)} = 4 $,它的含义是,在模型 P 下,结果 x 的概率是模型 Q 下的四倍,这是解谜的第一块拼图。

“对数似然比”将比较转化为加性,现在取对数。为什么要取对数?因为对数可以将乘性差异转化为加性差异,而信息论正是建立在加性的基础上的。

$ \log \frac{P(x)}{Q(x)} $

这表示,当我们观察到结果 x 时,P 比 Q 更有利的信息。

这与惊讶的程度有所不同。x 的惊讶程度:-log P(x);P 优于 Q 的证据:log P(x) - log Q(x) 。

两者都基于对数,因为对数是信息的自然单位。

期望对数似然比代表了证据的平均值。现在计算关于 P 的期望:

$ E_P\left[\log \frac{P(X)}{Q(X)}\right] $

这意味着,平均而言,世界(按 P 分布)提供了多少支持 P 优于 Q 的证据?这个数值是相对熵,或者说 Kullback-Leibler 散度:

$ D(P | Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)} $

现在,“相对熵是似然比的对数期望”这句话突然变得直白易懂了:相对熵 = 对数期望似然比。

因为它正是如此:“似然比”为 P(x)/Q(x), “对数似然比” 为 \log(P(x)/Q(x)),“期望” 为 P 下的平均值,“对数期望似然比” 为 E_P[\log(P/Q)] 。

现在,神奇之处在于,这个量到底意味着什么?这正是整个理论的精妙之处。

相对熵$ D(P | Q) $衡量的是:如果你假设世界是 Q 而实际上它是 P,你会因此付出多少额外的惊喜(或编码成本,或证据成本)。或者更通俗地说:Q 作为 P 的模型错得有多离谱。它不是对称的,因为在一个方向上的错误与在另一个方向上的错误是不同的。相对熵是将一种现实误认为另一种现实的成本。


似然比并非衡量哪个更大,而是衡量两个分布相对于实际发生情况的差异程度。

情况 1:罕见但模型预测一致,两个模型都认为某种情况发生的概率极低。假设:P(x) = 0.001, Q(x) = 0.001。则,$ \frac{P(x)}{Q(x)} = 1, \log \frac{P(x)}{Q(x)} = 0 $。这意味着:虽然这种情况发生的概率极低,但两个模型对概率的预测一致,因此 Q(x) 的预测并没有错。

情况 2:罕见但被 Q 低估,Q 未能捕捉到罕见但“可能”发生的结果。这时,P(x) = 0.001, Q(x) = 0.00001。则,$ \frac{P(x)}{Q(x)} = 100, \log \frac{P(x)}{Q(x)} \approx 4.6 $。因此,尽管两者都认为这种情况不太可能发生,但 Q 低估了它,似然比会对此进行惩罚:Q 认为这种情况极不可能发生,但现实中这种情况发生的频率更高。Q 的判断比它应该的更不准确。

情况3:罕见但被 Q 高估, Q 对现实几乎不可能出现的情况给予了过高的信心。例如,P(x) = 0.001, Q(x) = 0.01。则,$ \frac{P(x)}{Q(x)} = 0.1, log \frac{P(x)}{Q(x)} \approx -2.3 $。这产生了有利于 Q 的负面信息,意味着:Q 过于自信,然而,现实很少出现这种结果。这表明有证据反对 Q。

因此,似然比反映的是“差异”,而不仅仅是“大小”。它衡量的不是绝对概率(P(x) 有多大或多小),而是 Q 对 P 所描述的现实的扭曲程度。

这就是为什么:$ D(P|Q) = \text{预期对数似然比(相对于 }P\text{)} $ 读作:平均而言,当世界按照 P 运行时,如果有人相信 Q 而不是 P,他们会被误导到什么程度?

重要的是 Q 是否与 P 认为的罕见程度相悖。即使 P(x) 很小而 Q(x) 很大,Q 仍然不符合 P(x)。对数似然比完美地体现了这一点:$ \log\frac{P(x)}{Q(x)} < 0 $。这会对平均值产生负面影响,意味着它降低了对 Q 的置信度。相对熵汇总了所有此类分歧,并根据它们在真实世界中的实际相关性进行加权。


为什么对数似然比原始概率看起来更直观?

因为概率关乎频率,而信息关乎可区分性。即使两个数字都很小,例如,原始概率的差异:0.1 – 0.01 = 0.09,看起来很小。但信息差异:−log(0.1) ≈ 1 比特 vs −log(0.01) ≈ 6.64 比特,感觉很大。

你的直觉告诉你:重要的不是概率的差异,而是预期或压缩该结果的难度差异。对数将概率转化为阻力,将意外视为现实用来对抗你预期的能量:

$ \text{surprise}(x) = -\log p(x) $

因此,p(x)=0.1 和 p(x)=0.01 之间的差异不是“0.09”,而是从只需 1 比特编码的内容到需要 6.64 比特编码的内容。这是结构上的质变。

概率存在于乘法尺度上,而信息存在于加法尺度上。

对数是连接两者的桥梁。概率的增长是乘法的:2倍、10倍、100倍,信息的增长是加法的:+1比特、+3比特、+5比特。数学选择对数并非随意之举,选择对数是因为它体现了不确定性下变化的累积方式。

换句话说,世界以乘法的方式向你抛来不确定性,你的思维以累加的方式组织信息。这就是为什么我们的直觉更倾向于对数。

在物理学中,力的领域是累加的,所以我们测量距离以累加的方式(米),测量加速度以乘法的方式(对数/指数,相对论尺度)。

在信息领域,不确定性的领域是累加的,所以我们测量概率以乘法的方式(原始数值),测量信息以累加的方式(对数)。理解信息需要进入信息自然累加的尺度,这个尺度是对数尺度。

http://www.jsqmd.com/news/43856/

相关文章:

  • 纯CSS实现多种背景图案:渐变条纹、蓝图网格、波点与棋盘效果全解析(附 Sass Mixin 封装) - 指南
  • 2025年11月中走丝线切割机厂家推荐:深耕高精度/数控/极速中走丝线切割机速精密制造,实力厂家全揭秘!
  • 2025年云南/贵州/甘肃/西藏净化板源头厂家优选指南:中空玻镁/岩棉/硫氧镁净化板与洁净板实力厂家盘点!
  • 2025年11月东莞厂房装修服务商推荐:机械加工/仓储物流/恒温恒湿/无尘净化/重型设备厂房装修施工与设计优势!
  • 2025年11月艺术涂料核心厂家推荐:进口/意大利进口/意大利艺术漆—— 意式艺术与健康科技的融合典范
  • linux bios 设置
  • linux bin解压
  • 2025年11月新疆电线电缆厂家最新推荐,精准检测与稳定性能深度解析!
  • [GESP202406 三级] 寻找倍数
  • 2025 年 11 月新疆电线电缆厂家最新推荐,技术实力与市场口碑深度解析!
  • SQL进阶必备:从计算字段到多表联结,让查询效率翻倍!
  • 【Docker】[特殊字符] Docker 部署完全指南 - 从本地开发到云服务器 - 指南
  • Day42(12)-F:\硕士阶段\Java\课程代码\后端\web-ai-code\web-ai-project02\tlias-web-management
  • P14510 夜里亦始终想念着你 miss 题解
  • 2025年11月高温轴承工厂排行榜,高温轴承公司推荐,耐高温轴承供应厂家,耐高温轴承源头厂家-骄铭轴承
  • B4185 [中山市赛 2024/科大国创杯小学组 2023] 倍数子串/子串 题解
  • 20251117 - Manacher
  • Prufer序列和Cayley定理
  • 完整教程:PB级数据洪流下的抉择:从大数据架构师视角,深度解析时序数据库选型与性能优化(聚焦Apache IoTDB)
  • 软件工程学习日志2025.11.18
  • 11.14 事务的四大特性 并发事务问题
  • SQL逻辑查询语句执行顺序
  • 解码死锁的产生与解决
  • uniapp的rich-text在渲染长数字与长字母时不换行
  • 头部厂商易路AI HR实战解析:从人海战术到智能闭环的合规跃迁
  • 【微信小程序 + 登录流程】微信小程序授权登录完整流程,一篇搞定!(含代码实现) - 详解
  • linux auto
  • 记录相关的操作
  • P9846 [ICPC 2021 Nanjing R] Paimons Tree
  • linux audio