当前位置：首页 > news >正文

信息论（七）：对数似然比与相对熵（KL散度）

news 2026/3/26 21:44:11

“对数似然比”听起来很复杂，但当你一层层剥开它的面纱，就会发现它其实是由非常简单、非常自然的概念构成的。

“似然比”（likelihood）是比较同一事件的两种说法。假设你对同一个变量 X 有两个不同的概率分布：

P(x)：你的“真实”模型，或者你认为正确的分布
Q(x)：一个替代模型，或者一个假设，或者一个近似值

似然比是：$ \frac{P(x)}{Q(x)} $

直观理解，它回答了以下问题：“对于这个特定的结果 x，P 比 Q 更相信（或更不相信）它吗？”

如果 P(x) = 0.2 但 Q(x) = 0.05，则：$ \frac{P(x)}{Q(x)} = 4 $，它的含义是，在模型 P 下，结果 x 的概率是模型 Q 下的四倍，这是解谜的第一块拼图。

“对数似然比”将比较转化为加性，现在取对数。为什么要取对数？因为对数可以将乘性差异转化为加性差异，而信息论正是建立在加性的基础上的。

$ \log \frac{P(x)}{Q(x)} $

这表示，当我们观察到结果 x 时，P 比 Q 更有利的信息。

这与惊讶的程度有所不同。x 的惊讶程度：-log P(x)；P 优于 Q 的证据：log P(x) - log Q(x) 。

两者都基于对数，因为对数是信息的自然单位。

期望对数似然比代表了证据的平均值。现在计算关于 P 的期望：

$ E_P\left[\log \frac{P(X)}{Q(X)}\right] $

这意味着，平均而言，世界（按 P 分布）提供了多少支持 P 优于 Q 的证据？这个数值是相对熵，或者说 Kullback-Leibler 散度：

$ D(P | Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)} $

现在，“相对熵是似然比的对数期望”这句话突然变得直白易懂了：相对熵 = 对数期望似然比。

因为它正是如此：“似然比”为 P(x)/Q(x)， “对数似然比” 为 \log(P(x)/Q(x))，“期望” 为 P 下的平均值，“对数期望似然比” 为 E_P[\log(P/Q)] 。

现在，神奇之处在于，这个量到底意味着什么？这正是整个理论的精妙之处。

相对熵$ D(P | Q) $衡量的是：如果你假设世界是 Q 而实际上它是 P，你会因此付出多少额外的惊喜（或编码成本，或证据成本）。或者更通俗地说：Q 作为 P 的模型错得有多离谱。它不是对称的，因为在一个方向上的错误与在另一个方向上的错误是不同的。相对熵是将一种现实误认为另一种现实的成本。

似然比并非衡量哪个更大，而是衡量两个分布相对于实际发生情况的差异程度。

情况 1：罕见但模型预测一致，两个模型都认为某种情况发生的概率极低。假设：P(x) = 0.001, Q(x) = 0.001。则，$ \frac{P(x)}{Q(x)} = 1, \log \frac{P(x)}{Q(x)} = 0 $。这意味着：虽然这种情况发生的概率极低，但两个模型对概率的预测一致，因此 Q(x) 的预测并没有错。

情况 2：罕见但被 Q 低估，Q 未能捕捉到罕见但“可能”发生的结果。这时，P(x) = 0.001, Q(x) = 0.00001。则，$ \frac{P(x)}{Q(x)} = 100, \log \frac{P(x)}{Q(x)} \approx 4.6 $。因此，尽管两者都认为这种情况不太可能发生，但 Q 低估了它，似然比会对此进行惩罚：Q 认为这种情况极不可能发生，但现实中这种情况发生的频率更高。Q 的判断比它应该的更不准确。

情况3：罕见但被 Q 高估， Q 对现实几乎不可能出现的情况给予了过高的信心。例如，P(x) = 0.001, Q(x) = 0.01。则，$ \frac{P(x)}{Q(x)} = 0.1, log \frac{P(x)}{Q(x)} \approx -2.3 $。这产生了有利于 Q 的负面信息，意味着：Q 过于自信，然而，现实很少出现这种结果。这表明有证据反对 Q。

因此，似然比反映的是“差异”，而不仅仅是“大小”。它衡量的不是绝对概率（P(x) 有多大或多小），而是 Q 对 P 所描述的现实的扭曲程度。

这就是为什么：$ D(P|Q) = \text{预期对数似然比（相对于 }P\text{）} $ 读作：平均而言，当世界按照 P 运行时，如果有人相信 Q 而不是 P，他们会被误导到什么程度？

重要的是 Q 是否与 P 认为的罕见程度相悖。即使 P(x) 很小而 Q(x) 很大，Q 仍然不符合 P(x)。对数似然比完美地体现了这一点：$ \log\frac{P(x)}{Q(x)} < 0 $。这会对平均值产生负面影响，意味着它降低了对 Q 的置信度。相对熵汇总了所有此类分歧，并根据它们在真实世界中的实际相关性进行加权。

为什么对数似然比原始概率看起来更直观？

因为概率关乎频率，而信息关乎可区分性。即使两个数字都很小，例如，原始概率的差异：0.1 – 0.01 = 0.09，看起来很小。但信息差异：−log(0.1) ≈ 1 比特 vs −log(0.01) ≈ 6.64 比特，感觉很大。

你的直觉告诉你：重要的不是概率的差异，而是预期或压缩该结果的难度差异。对数将概率转化为阻力，将意外视为现实用来对抗你预期的能量：

$ \text{surprise}(x) = -\log p(x) $

因此，p(x)=0.1 和 p(x)=0.01 之间的差异不是“0.09”，而是从只需 1 比特编码的内容到需要 6.64 比特编码的内容。这是结构上的质变。

概率存在于乘法尺度上，而信息存在于加法尺度上。

对数是连接两者的桥梁。概率的增长是乘法的：2倍、10倍、100倍，信息的增长是加法的：+1比特、+3比特、+5比特。数学选择对数并非随意之举，选择对数是因为它体现了不确定性下变化的累积方式。

换句话说，世界以乘法的方式向你抛来不确定性，你的思维以累加的方式组织信息。这就是为什么我们的直觉更倾向于对数。

在物理学中，力的领域是累加的，所以我们测量距离以累加的方式（米），测量加速度以乘法的方式（对数/指数，相对论尺度）。

在信息领域，不确定性的领域是累加的，所以我们测量概率以乘法的方式（原始数值），测量信息以累加的方式（对数）。理解信息需要进入信息自然累加的尺度，这个尺度是对数尺度。

查看全文

http://www.jsqmd.com/news/43856/