当前位置：首页 > news >正文

【信号处理】（高斯分布）最大熵定理 - 教程

news 2026/7/3 13:51:10

在所有具有相同方差（即相同平均功率）的概率分布中，高斯分布的熵是最大的。

这个定理的精确表述是：

在所有具有相同方差（即相同的二阶矩，对于零均值分布来说就是相同的平均功率）的概率分布中，高斯分布（正态分布）具有最大的微分熵。

下面我将详细解释这个定理的含义、重要性以及为什么它成立。

约束条件：我们比较的分布必须满足一个硬性约束——方差固定。方差（ $\sigma^2$ 数据的离散程度，在信号处理中，它代表信号的平均功率。就是）衡量的
优化目标：我们要在这些分布中找到那个微分熵最大的分布。熵是衡量随机变量不确定性的指标。熵越大，意味着随机性越强，包含的信息量越大，或者说其结构是最"不可预测"的。
结论：在方差被固定的前提下，高斯分布是"最随机"、“最不可预测”、"最没有结构"的分布。任何其他具有相同方差的分布，都会因为具有某种特定的结构（例如，偏向某些值、有界等）而导致其不确定性降低，即熵变小。

中心极限定理的"对偶"：中心极限定理告诉我们，大量独立随机变量的和趋近于高斯分布。最大熵定理则从另一个角度解释了这个现象：在给定的方差约束下，要是我们对随机变量的分布一无所知（即不做任何其他假设），那么最合理、最不偏不倚的假设就是它是高斯分布，因为这是最"中庸"且不确定性最大的选择。
通信与信号处理证明在发射功率受限的条件下，应用高斯分布的输入信号可以实现信道容量的上限。这直接应用了最大熵原理。就是：在信道容量（香农公式）的推导中，一个关键步骤
统计建模与机器学习：当我们对一个自然现象只知道其均值和方差（或协方差）时，使用高斯模型作为先验分布通常是最稳健、最不引入额外偏见的选择。这被称为最大熵原理的应用。

我们可以凭借变分法和拉格朗日乘数法来证明这个定理。

目标：在满足以下三个约束条件下，最大化微分熵 $-\int_{-\infty}^{\infty} f(x) \log f(x) dx$ ：

证明思路：

建立拉格朗日函数 $\mathcal{L}$ ，将熵函数和三个约束条件结合起来：
$\mathcal{L}[f] = - \int f \log f dx + \lambda_1 \left( \int f dx - 1 \right) + \lambda_2 \int x f dx + \lambda_3 \left( \int x^2 f dx - \sigma^2 \right)$
其中 $\lambda_1, \lambda_2, \lambda_3$ 是拉格朗日乘子。
对函数 $f$ 求变分导数，并令其等于零（ $\frac{\delta \mathcal{L}}{\delta f} = 0$ ）。计算结果是：
$-\log f(x) - 1 + \lambda_1 + \lambda_2 x + \lambda_3 x^2 = 0$
解出 $f (x)$ ：
$\exp(\lambda_1 - 1 + \lambda_2 x + \lambda_3 x^2)$
利用整理常数，这个形式可以写成：
$\exp(\alpha x + \beta x^2)$
其中 $\alpha, \beta$ 是常数。
利用三个约束条件来确定这些常数：
- 为了保证 $f (x)$ 是可归一化的概率密度函数，必须有 $\beta < 0$ ，我们令 $\beta = -\frac{1}{2\sigma^2}$ 。
- 利用均值为0的约束，允许推出 $\alpha = 0$ 。
- 最后利用方差为 $\sigma^2$ 的约束来确定常数 $A$ 。
最终得到的形式正是高斯分布的概率密度函数：
$\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right)$