当前位置：首页 > news >正文

EM算法中的Q函数：从三硬币模型到实际应用的完整推导指南

news 2026/7/5 19:20:55

EM算法中的Q函数：从三硬币模型到实际应用的完整推导指南

在机器学习领域，我们常常会遇到数据不完整或存在隐变量的情况。这时，传统的最大似然估计方法往往难以直接应用。EM（Expectation-Maximization）算法作为一种强大的迭代优化工具，能够优雅地处理这类问题。而理解EM算法的核心，关键在于掌握其灵魂——Q函数。

1. EM算法与Q函数基础

想象一下，你有一袋混合了不同硬币抛掷结果的数据，但不知道每次抛掷具体用了哪枚硬币。这就是典型的隐变量问题。EM算法通过交替执行两个步骤来解决这类问题：

E步（期望步）：基于当前参数估计，计算隐变量的条件概率分布
M步（最大化步）：基于E步的结果，更新模型参数

Q函数正是在E步中计算得到的完全数据对数似然函数的期望值。数学上表示为：

Q(θ,θ⁽ⁱ⁾) = E_Z[log P(Y,Z|θ)|Y,θ⁽ⁱ⁾]

其中：

θ⁽ⁱ⁾是第i次迭代的参数估计
Y是观测数据
Z是隐变量

注意：Q函数不是凭空定义的，而是从最大化不完全数据似然函数的过程中自然推导出来的。

2. 从三硬币模型看Q函数推导

三硬币模型是理解EM算法的经典案例。假设有三个硬币A、B、C，其正面朝上的概率分别为π、p、q。实验过程为：

抛硬币A
若A为正面，抛B；否则抛C
记录最终结果（B或C的结果）
重复n次

我们观察到的是B/C的结果序列，但不知道每次实验实际使用的是B还是C（这就是隐变量）。

2.1 不完全数据似然函数

对于n次观测Y=(y₁,...,yₙ)，似然函数为：

L(θ) = log P(Y|θ) = Σ log[πp^yᵢ(1-p)^(1-yᵢ) + (1-π)q^yᵢ(1-q)^(1-yᵢ)]

这个式子由于log内部有求和，直接求导最大化非常困难。

2.2 引入Q函数

定义隐变量zᵢ表示第i次实验使用的是B(zᵢ=1)还是C(zᵢ=0)。完全数据似然函数为：

P(Y,Z|θ) = Π [πp^yᵢ(1-p)^(1-yᵢ)]^zᵢ [(1-π)q^yᵢ(1-q)^(1-yᵢ)]^(1-zᵢ)

取对数后：

log P(Y,Z|θ) = Σ zᵢ[logπ + yᵢlogp + (1-yᵢ)log(1-p)] + (1-zᵢ)[log(1-π) + yᵢlogq + (1-yᵢ)log(1-q)]

Q函数即为上述表达式关于Z的条件期望：

Q(θ,θ⁽ⁱ⁾) = E[log P(Y,Z|θ)|Y,θ⁽ⁱ⁾]

2.3 E步：计算期望

计算zᵢ的期望（即在当前参数θ⁽ⁱ⁾下，zᵢ=1的概率）：

μᵢ⁽ⁱ⁾ = E[zᵢ|yᵢ,θ⁽ⁱ⁾] = P(zᵢ=1|yᵢ,θ⁽ⁱ⁾) = π⁽ⁱ⁾ p⁽ⁱ⁾^yᵢ (1-p⁽ⁱ⁾)^(1-yᵢ) / [π⁽ⁱ⁾ p⁽ⁱ⁾^yᵢ (1-p⁽ⁱ⁾)^(1-yᵢ) + (1-π⁽ⁱ⁾) q⁽ⁱ⁾^yᵢ (1-q⁽ⁱ⁾)^(1-yᵢ)]

因此Q函数可表示为：

Q(θ,θ⁽ⁱ⁾) = Σ μᵢ⁽ⁱ⁾[logπ + yᵢlogp + (1-yᵢ)log(1-p)] + (1-μᵢ⁽ⁱ⁾)[log(1-π) + yᵢlogq + (1-yᵢ)log(1-q)]

2.4 M步：参数更新

最大化Q函数，对各个参数求导并令导数为0：

对π：

π⁽ⁱ⁺¹⁾ = (Σ μᵢ⁽ⁱ⁾)/n

对p：

p⁽ⁱ⁺¹⁾ = Σ μᵢ⁽ⁱ⁾ yᵢ / Σ μᵢ⁽ⁱ⁾

对q：

q⁽ⁱ⁺¹⁾ = Σ (1-μᵢ⁽ⁱ⁾) yᵢ / Σ (1-μᵢ⁽ⁱ⁾)

3. Q函数的数学本质

为什么Q函数能有效提升似然函数？这背后有着严谨的数学解释。

3.1 琴生不等式与下界函数

对于任意分布q(Z)，根据琴生不等式：

log P(Y|θ) = log Σ P(Y,Z|θ) = log Σ q(Z) P(Y,Z|θ)/q(Z) ≥ Σ q(Z) log[P(Y,Z|θ)/q(Z)]

当q(Z)=P(Z|Y,θ⁽ⁱ⁾)时，这个下界紧贴当前似然函数。

3.2 Q函数与下界最大化

定义下界函数：

B(θ,θ⁽ⁱ⁾) = Σ P(Z|Y,θ⁽ⁱ⁾) log P(Y,Z|θ) - Σ P(Z|Y,θ⁽ⁱ⁾) log P(Z|Y,θ⁽ⁱ⁾)

其中第一项就是Q函数。因此最大化Q函数等价于最大化这个下界。

3.3 EM算法的收敛性

因为每次迭代：

E步使下界等于当前似然
M步提升下界
从而保证似然函数不降

这种性质确保了EM算法能收敛到局部最优。

4. Q函数在实际应用中的变体

不同场景下，Q函数的具体形式会有所变化，但核心思想不变。

4.1 高斯混合模型

对于K个高斯分布的混合模型，Q函数为：

Q(θ,θ⁽ⁱ⁾) = Σ Σ γₖᵢ⁽ⁱ⁾ [logπₖ + log N(xᵢ|μₖ,Σₖ)]

其中γₖᵢ⁽ⁱ⁾是第i个样本属于第k个高斯分布的后验概率。

4.2 隐马尔可夫模型

在HMM的参数学习中，Q函数涉及：

状态转移期望计数
观测发射期望计数
初始状态分布

4.3 含缺失数据的问题

当数据有缺失时，可将缺失部分视为隐变量，Q函数即为完整数据对数似然关于观测数据的条件期望。

5. 实现Q函数的实用技巧

5.1 数值稳定性

计算Q函数时，常遇到小概率相乘导致下溢的问题。实用技巧包括：

使用log-sum-exp技巧
在log空间进行计算
添加微小常数防止零概率

# log-sum-exp示例 def log_sum_exp(x): x_max = np.max(x) return x_max + np.log(np.sum(np.exp(x - x_max)))

5.2 加速收敛方法

标准EM可能收敛慢，可尝试：

增加EM：在M步不完全最大化，只保证Q函数增加
随机化EM：每次迭代随机选择部分数据
在线EM：逐步处理数据

5.3 处理局部最优

EM易陷入局部最优，解决方案：

多随机初始化
使用模拟退火
结合全局优化方法

提示：在实际应用中，监控似然函数或参数的变化量是判断收敛的有效方法。

6. Q函数与变分推断的关系

当E步中P(Z|Y,θ⁽ⁱ⁾)难以计算时，可用变分分布q(Z)近似：

log P(Y|θ) ≥ E_q[log P(Y,Z|θ)] - E_q[log q(Z)] = ELBO

这时最大化证据下界(ELBO)相当于广义的EM算法。

6.1 变分EM框架

变分E步：固定θ，优化q最大化ELBO
M步：固定q，优化θ最大化ELBO

6.2 平均场近似

假设q(Z)可分解：

q(Z) = Π qᵢ(Zᵢ)

然后交替优化每个qᵢ。

7. 前沿进展与扩展

现代研究中，Q函数的概念被扩展到更广泛的场景：

随机EM：使用蒙特卡洛方法近似E步
分布式EM：处理大规模数据
深度EM：结合神经网络表示分布

例如，VAE（变分自编码器）可以看作是在神经网络参数化下的EM算法。

查看全文

http://www.jsqmd.com/news/517323/

从零理解电动机工作原理：5个关键公式带你读懂电机铭牌参数

从零到一：手把手教你用Android Studio离线打包UniApp安卓应用

Spring新手必看：IOC容器中Bean的5个关键操作（含containsBean使用场景）

语音处理不求人：用ClearerVoice-Studio轻松搞定会议纪要音频

Java中如何使用Scanner读取输入数据

国家中小学智慧教育平台电子课本下载终极指南：三步获取全科教材PDF

黑盒 vs 白盒测试：5个真实项目案例教你如何选择测试方法

告别抓包烦恼：用Postern+Charles搞定雷电模拟器里所有难抓的App流量

保姆级教程：用ROS Noetic在Ubuntu 20.04上配置RealSense D455与机械臂手眼标定（附常见错误排查）

从零到一：F28379D SCI串口通信实战配置与调试指南

Buck - Boost双向DC - DC电源学习资料大揭秘

Wireshark实战：3步搞定HTTPS证书抓包与导出（附浏览器备用方案）

如何为Java初学者配置最简洁的开发环境

中国营销管理咨询公司如何选不踩坑？2026年靠谱推荐聚焦业绩对赌与效果保障型服务 - 十大品牌推荐

Java charAt 方法与字符编码变换实践

2026年佛山地区软件开发年度排名，看看费用合理的有哪些 - 工业推荐榜

嵌入式C语言错误处理五大核心技术与工程实践

GPT-4 Turbo 与大模型训练革命：超算互联网的智能调度与性能突破

【Dify私有化部署SOP白皮书】：从离线环境适配到审计合规闭环，12步标准化流程首次公开

GLM-OCR本地部署与云部署方案对比：成本与性能全解析

DVWA 靶场实战：从零到一的 Web 安全攻防演练

探索2024CUPT尺子把戏中的Comsol仿真模拟

如何用英飞凌IPOSIM为国产IGBT选型做参考？一个功率工程师的实用技巧分享

ParsecVDisplay虚拟显示器深度解析：从内核驱动到多屏工作流的技术实践

智能旅行箱嵌入式系统设计：STM32多传感器融合与边缘智能实现