当前位置：首页 > news >正文

别再死记硬背了！用几何动画和日常例子彻底搞懂Jensen不等式

news 2026/6/7 11:07:51

用几何动画和日常例子彻底搞懂Jensen不等式

数学公式总让人望而生畏？尤其是那些带着希腊字母和复杂符号的不等式。今天我们就用几何动画和日常生活中的例子，让Jensen不等式变得像看动画片一样简单有趣。

想象一下，你站在一个碗的底部。无论往哪个方向走，都是在向上爬——这就是凸函数最直观的几何表现。而Jensen不等式告诉我们：在这个碗里，两点之间的直线永远在碗的上方。这个看似简单的几何事实，却在机器学习、金融投资甚至日常决策中有着惊人的应用价值。

1. 从几何动画看凸函数的本质

打开Desmos或Geogebra，随便画一个开口向上的抛物线。取曲线上任意两点A和B，连接这两点的直线我们称之为"弦"。现在观察弦与曲线的关系：

弦永远位于曲线之上或与曲线重合（线性情况）
曲线就像一个碗，弦就是碗口上绷紧的橡皮筋
任意中间点的函数值 ≤ 弦上对应点的值

这就是Jensen不等式的几何核心。用数学表达式表示就是：

f(λx₁ + (1-λ)x₂) ≤ λf(x₁) + (1-λ)f(x₂)

其中λ在0到1之间，表示混合比例。这个不等式可以推广到多个点的加权平均：

f(∑λᵢxᵢ) ≤ ∑λᵢf(xᵢ)，其中∑λᵢ=1

提示：在Geogebra中创建滑动条控制λ值，可以动态观察不等式如何随权重变化

2. 生活中的Jensen不等式

2.1 班级平均身高的"魔法"

假设一个班有两组学生：

男生平均身高175cm
女生平均身高165cm

全班平均身高一定在165-175cm之间。但如果我们考虑的是身高的平方：

男生身高平方平均：175²=30625
女生身高平方平均：165²=27225
全班身高平方平均 > (全班平均身高)²

这就是因为平方函数是凸函数，符合Jensen不等式。

2.2 投资组合的收益风险

你有两个投资选择：

股票A：可能收益20%或亏损10%，概率各50%
股票B：固定收益5%

计算期望收益：

单独投A：E[收益]=5%
单独投B：E[收益]=5%
各投50%：E[收益]还是5%

但考虑效用函数（比如对数效用）：

log(1.2)≈0.182
log(0.9)≈-0.105
单独投A的期望效用：0.5×0.182+0.5×(-0.105)=0.0385
各投50%的效用：0.5log(1.2×0.5+1.05×0.5)+0.5log(0.9×0.5+1.05×0.5)≈0.0402

分散投资提升了期望效用，这正是Jensen不等式对凹函数（对数函数是凹的）的体现。

3. 机器学习中的关键应用

3.1 KL散度与熵

在信息论中，Jensen不等式证明了：

KL散度总是非负的
熵是凹函数
互信息的非负性

考虑一个简单的二元分布：

P(X=0)=p, P(X=1)=1-p
熵H(p)=-plogp-(1-p)log(1-p)

用Jensen不等式可以证明H(p)是凹函数，因为对数函数是凹的。

3.2 EM算法原理

EM算法的收敛性依赖于Jensen不等式。在E步构造的下界函数，正是利用了log函数的凹性：

log E[q(x)] ≥ E[log q(x)]

这使得我们可以通过最大化下界来间接优化似然函数。

4. 常见误区与验证方法

4.1 如何判断函数凹凸性

最实用的方法是二阶导数测试：

f''(x)≥0：凸函数
f''(x)≤0：凹函数

常见函数的凹凸性：

函数类型	区间	凹凸性
x²	R	凸
log(x)	x>0	凹
eˣ	R	凸
√x	x>0	凹

4.2 权重条件的必要性

Jensen不等式要求权重λᵢ满足∑λᵢ=1。如果违反这个条件，不等式可能不成立。例如：

取f(x)=x²，x₁=1, x₂=2，λ₁=2, λ₂=1 左边：f((2×1+1×2)/3)=f(4/3)≈1.78 右边：(2×1²+1×2²)/3=2 此时1.78≤2仍成立

但如果λ₁=3, λ₂=1 左边：f((3×1+1×2)/4)=f(5/4)=1.5625 右边：(3×1²+1×2²)/4=1.75 仍然成立

看起来即使∑λᵢ≠1，只要重新归一化，不等式仍然成立。那为什么要求∑λᵢ=1呢？实际上，这是为了表述的简洁性，归一化的权重已经隐含在不等式中。

5. 动手实验：用Python验证

让我们用Python代码验证几个例子：

import numpy as np # 验证x²的凸性 x = np.array([1, 3]) weights = np.array([0.4, 0.6]) lhs = np.sum(weights * x)**2 # f(E[x]) rhs = np.sum(weights * x**2) # E[f(x)] print(f"x²验证: {lhs:.2f} ≤ {rhs:.2f}") # 输出: 4.84 ≤ 5.80 # 验证log的凹性 x = np.array([0.2, 0.8]) lhs = np.log(np.sum(weights * x)) rhs = np.sum(weights * np.log(x)) print(f"log验证: {lhs:.2f} ≥ {rhs:.2f}") # 输出: -0.83 ≥ -1.12

运行这段代码，你会看到不等式确实成立。尝试修改x和weights的值，观察不等式何时成立、何时不成立。