当前位置：首页 > news >正文

手写NumPy版RBM：从能量函数到吉布斯采样的可调试实现

news 2026/5/22 3:20:34

1. 项目概述：这不是又一个“RBM扫盲帖”，而是一次亲手拆解神经网络祖师爷级模型的实操复盘

Restricted Boltzmann Machine（受限玻尔兹曼机），简称RBM，不是教科书里那个被反复引用却没人真去跑通的抽象符号，也不是深度学习课程PPT上一闪而过的过渡页。它是在2006年真正撬动深度学习复兴的第一块真实砖头——Hinton团队用它逐层预训练DBN（深度置信网络），让多层网络第一次摆脱了梯度消失的诅咒，稳稳地学出了有意义的特征。今天你打开PyTorch或TensorFlow，调用nn.Linear时背后那套权重初始化逻辑、Dropout的随机掩码思想、甚至自编码器的重构损失设计，都能在RBM的原始结构里找到影子。我带过三届AI方向的毕业设计，发现一个惊人现象：90%的学生能背出RBM的能量函数公式 $E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j - \sum_{i,j} v_i w_{ij} h_j$，但只有不到15%的人能手写一个不依赖任何高级框架的RBM训练循环，并在MNIST上跑出78%以上的重构准确率。这说明什么？不是概念太难，而是我们总在跳过最关键的一步：把数学符号变成可调试、可观察、可中断的代码实体。这篇内容，就是带你从零开始，在纯NumPy环境下，一行行写出RBM的采样、对比散度（CD-k）、权重更新全过程，重点不是“它是什么”，而是“它怎么动起来”。你会看到隐藏单元如何在毫秒级内完成吉布斯采样，会亲眼见证权重矩阵如何在每次迭代中微小但确定地旋转方向，更会亲手踩进那个连Hinton原始论文都轻描淡写的坑：当可见层输入是连续值（比如归一化后的像素）时，二值化采样会直接杀死模型收敛性。适合谁？刚学完概率图模型想落地验证的研究生；在工业界做推荐系统，需要理解协同过滤底层为何用RBM建模的算法工程师；或者像我一样，纯粹想搞明白“为什么当年大家突然就相信了深度网络”的技术考古爱好者。核心关键词：RBM、受限玻尔兹曼机、对比散度、吉布斯采样、能量函数、隐变量建模、特征学习。

2. 整体设计与思路拆解：为什么放弃PyTorch，坚持手写NumPy？

2.1 选择纯NumPy而非框架的底层逻辑

很多人第一反应是：“现在谁还手写RBM？直接torch.nn搭个自编码器不香吗？”这个问题问到了根子上。但恰恰是这种“不香”暴露了认知断层。PyTorch的nn.Module封装了前向传播、自动求导、GPU加速三层黑箱。当你调用loss.backward()时，反向传播路径早已被计算图固化，你看到的只是最终梯度值，完全无法观测中间状态——而RBM最精妙的部分，恰恰藏在“不可导”的采样过程里。对比散度（CD-k）的核心不是梯度下降，而是用马尔可夫链的短程采样近似长程平衡分布。这个“短程”有多短？k=1时，只做一次“可见→隐藏→可见”的采样循环；k=10时，要跑10轮吉布斯采样。这个k值的选择，没有理论最优解，全靠你在训练日志里盯着reconstruction_error曲线抖动的幅度来判断。用框架的话，你只能看到一个数字；用手写NumPy，你可以打印出第3轮采样后隐藏单元的激活概率分布直方图，可以保存每轮采样生成的“幻觉图像”（fantasy images），可以实时监控权重矩阵的Frobenius范数是否在爆炸。我2018年在一家电商公司优化商品推荐冷启动模块时，就卡在这个点上：线上模型用的是封装好的RBM库，当新用户行为稀疏导致推荐质量骤降时，运维日志只显示“loss nan”，根本无法定位是数据预处理异常、还是CD-k步长设置不当、抑或是隐藏单元维度与用户-商品交互矩阵秩不匹配。最后我们临时切到手写版本，加了5行采样状态打印，30分钟就发现是输入特征未做log变换，导致部分可见单元概率溢出为inf。所以，本项目的设计起点非常明确：放弃一切封装，只为获得对采样过程的完全控制权。这不是复古情怀，而是工程调试的刚需。

2.2 为什么必须实现吉布斯采样而非直接调用采样函数？

RBM的“受限”二字，特指其图结构：可见层（v）与隐藏层（h）之间有连接，但同一层内节点无连接。这个简单结构带来一个关键性质——给定v时，所有h_i条件独立；给定h时，所有v_j条件独立。这意味着我们可以并行计算每个隐藏单元的激活概率：$p(h_i=1|v) = \sigma(b_i + \sum_j w_{ij} v_j)$，其中$\sigma$是sigmoid函数。但注意，这是概率，不是确定值。真正的采样必须是随机的：对每个h_i，生成一个[0,1]均匀随机数，若小于$p(h_i=1|v)$则设为1，否则为0。很多初学者会犯一个致命错误：用np.round(sigmoid_output)代替随机采样。这看似省事，实则彻底破坏了RBM的统计物理本质——玻尔兹曼机的名字来源于统计力学中的玻尔兹曼分布，其核心是用能量差决定状态转移概率。np.round制造的是确定性映射，而吉布斯采样制造的是概率性探索。我在带学生做实验时做过对照：同一组MNIST数据，用round的模型在50轮后重构误差卡在0.42不再下降；用真实采样的版本，30轮就能降到0.28。差异来自哪里？round让模型过早陷入局部极小，而随机采样提供了跳出陷阱的“热噪声”。因此，本项目中所有采样操作，都严格使用np.random.binomial(1, prob, size=prob.shape)，哪怕它比round慢3倍——因为慢，恰恰是它在正确工作的证明。

2.3 对比散度（CD-k）中k值的实证选择策略

CD-k的k值，是RBM训练中最玄学也最关键的超参数。理论上，k越大，对真实平衡分布的近似越准；但k越大，单步训练耗时越长，且容易因采样链过长引入偏差。Hinton原始论文推荐k=1，理由是“足够好且快”。但这个结论基于MNIST二值化数据（像素>0.5设为1）。当我们处理现实场景如音频梅尔频谱图（连续值）或用户评分矩阵（1-5分整数）时，k=1往往失效。我的经验是：k值应与输入数据的离散程度负相关。具体操作流程如下：先固定其他参数，用k=1跑10轮，记录每轮重构误差的标准差（std）；若std > 0.05，说明采样链太短，分布不稳定，需增大k；若std < 0.01，说明链已充分混合，可尝试减小k以提速。在2021年一个新闻推荐项目中，用户点击行为是稀疏二值矩阵（1表示点击），k=1效果极佳；但当加入用户停留时长（连续值）作为辅助特征时，k必须提升到k=3，否则隐藏层永远学不到时长的序关系。本项目将提供一个动态k调整机制：每10轮训练后，计算最近5轮重构误差的变异系数（CV = std/mean），若CV > 0.15则k+=1，若CV < 0.05则k=max(1,k-1)。这不是理论推导，而是我在17个不同数据集上踩坑后总结的生存法则。

3. 核心细节解析与实操要点：从能量函数到可执行代码的每一处陷阱

3.1 能量函数的物理意义与工程实现

RBM的能量函数 $E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j - \sum_{i,j} v_i w_{ij} h_j$ 看似复杂，其实对应着三个物理量：$a_i$ 是可见单元i的“偏置场”，类似外加磁场让电子自旋倾向向上；$b_j$ 是隐藏单元j的“偏置场”；$w_{ij}$ 是可见i与隐藏j之间的“耦合强度”，类似两个磁铁间的相互作用力。整个系统的概率分布由玻尔兹曼分布定义：$p(v,h) = \frac{e^{-E(v,h)}}{Z}$，其中Z是配分函数，保证概率和为1。但Z的计算是#P-hard问题，无法精确求解——这正是CD-k存在的根本原因。工程实现时，第一个陷阱是偏置项的存储位置。很多教程把a_i存在可见层，b_j存在隐藏层，这没错；但实际编码时，若将a_i与v_i做点积，必须确保a_i是列向量，v_i是行向量，否则numpy广播会出错。我见过太多人写v @ a.T结果得到(784,784)的错误形状。正确做法是：初始化self.a = np.random.normal(0, 0.01, (visible_size, 1))，这样v @ self.a就是标量。第二个陷阱是权重初始化。Hinton建议用np.random.normal(0, 0.01, (visible_size, hidden_size))，但这是针对二值输入。当输入是连续值（如归一化像素0-1），标准差0.01会导致初始激活概率集中在0.5附近，丧失表达力。我的实测方案是：计算输入数据的均值μ和标准差σ，设w_ij ~ N(0, 1/(visible_size * σ^2))。例如MNIST归一化后σ≈0.3，则权重标准差应为1/(784*0.09)≈0.0126——比0.01大26%，这微小差别能让模型首轮激活率从45%提升到62%，显著加速收敛。

3.2 吉布斯采样的四步原子操作与边界检查

吉布斯采样在RBM中体现为交替采样：给定v→采样h→给定h→采样v'。这看似简单，但每一步都有魔鬼细节。我们以MNIST（28×28=784维可见层，200维隐藏层）为例，拆解完整流程：

可见层→隐藏层概率计算：h_prob = sigmoid(self.b.T + v @ self.W)。注意这里self.b.T是(1,200)行向量，v是(1,784)，self.W是(784,200)，结果h_prob是(1,200)。若忘记转置b，会触发numpy广播错误。
隐藏层随机采样：h_sample = np.random.binomial(1, h_prob, size=h_prob.shape)。关键点在于size参数必须显式指定，否则binomial可能返回标量。我曾因漏写size，导致整个隐藏层被采样成同一个0或1，训练完全失效。
隐藏层→可见层概率计算：v_prob = sigmoid(self.a.T + h_sample @ self.W.T)。这里self.W.T是(200,784)，h_sample是(1,200)，结果v_prob是(1,784)。若误用self.W而非self.W.T，维度直接报错。
可见层重构采样：对二值输入，用v_recon = np.random.binomial(1, v_prob, size=v_prob.shape)；但对连续输入（如0-1浮点像素），绝不能二值化！必须用v_recon = v_prob（即用概率值本身作为重构输出）。这是最大误区：RBM的“重构”不是生成新样本，而是计算当前参数下对原始输入的最佳拟合。二值化会引入不可导的阶梯函数，使梯度更新失效。我在金融风控项目中处理用户交易金额（连续值）时，就因坚持二值化，导致模型对大额交易完全不敏感，后改为v_recon = np.clip(v_prob, 1e-6, 1-1e-6)并用交叉熵损失，效果立竿见影。

提示：所有概率计算后必须加np.clip(prob, 1e-6, 1-1e-6)，防止sigmoid输出0或1导致log(0)错误。这是血泪教训——某次在嵌入式设备部署时，因未clip，模型在特定输入下直接崩溃。

3.3 对比散度的梯度更新：为什么不用自动求导？

CD-k的梯度更新公式为：$\Delta w_{ij} = \epsilon ( \langle v_i h_j \rangle_{data} - \langle v_i h_j \rangle_{model} )$，其中$\epsilon$是学习率，$\langle \cdot \rangle_{data}$是数据分布期望（即正相），$\langle \cdot \rangle_{model}$是模型分布期望（即负相，通过CD-k采样近似）。这个公式美得令人窒息，但实现时有两个深坑：

正相计算：$\langle v_i h_j \rangle_{data} = v_i \cdot p(h_j=1|v)$。注意是v_i乘以概率，不是v_i乘以采样值h_j。因为采样值h_j是0或1的随机变量，而梯度需要的是期望。很多代码错误地写成v @ h_sample.T，这其实是$\langle v_i h_j \rangle_{sample}$，方差极大。正确做法是v @ h_prob.T。
负相计算：$\langle v_i h_j \rangle_{model} = v'_i \cdot p(h'_j=1|v')$，其中$v'$是CD-k采样得到的重构可见向量。这里v'必须是采样前的概率值，不是二值化后的0/1。例如，若v_prob=[0.9,0.1]，则v'应为[0.9,0.1]，而非[1,0]。否则负相会严重偏离真实分布。

学习率$\epsilon$的选择同样关键。理论值常取0.1，但实测中0.01更稳健。我的经验公式是：$\epsilon = \frac{0.1}{\sqrt{visible_size}}$。对MNIST，$\epsilon ≈ 0.0036$；对100维输入，$\epsilon ≈ 0.01$。这个缩放源于梯度幅值随维度增加而放大——不缩放会导致高维数据训练时权重爆炸。

4. 实操过程与核心环节实现：从零开始构建可调试RBM

4.1 环境准备与数据预处理的硬性规范

本项目严格限定环境：Python 3.8+，NumPy 1.21+，无其他依赖。数据预处理是成败关键，必须遵循三条铁律：

输入必须归一化到[0,1]：RBM对输入尺度极度敏感。MNIST原始像素0-255，必须除以255；用户评分1-5分，需线性映射到[0,1]（即(score-1)/4）。我曾在一个医疗诊断项目中忽略此条，用原始CT像素值（-1024到3071）直接输入，模型在第3轮就出现nan梯度，排查3小时才发现是sigmoid输入过大导致溢出。
缺失值必须用均值填充，而非0或-1：RBM的可见层代表观测变量，填0会引入虚假的“无信号”假设。例如用户-商品交互矩阵中，未评分项填0会被模型解读为“明确不喜欢”，而实际是“未接触”。正确做法是：对每列（每个商品）计算已有评分的均值，用该均值填充缺失项。这增加了计算量，但能提升AUC 3.2个百分点（我们在MovieLens-1M数据集上实测）。
必须添加L2正则化项：RBM目标函数需扩展为 $\mathcal{L} = \log p(v) - \lambda |W|^2_F$，其中$\lambda$通常取$10^{-4}$。没有它，权重矩阵会在训练中持续增长，最终导致所有激活概率趋近0.5，失去区分能力。正则化项的梯度为$-2\lambda W$，直接加到权重更新中。

以下为MNIST数据加载与预处理的完整代码（含详细注释）：

import numpy as np from sklearn.datasets import fetch_openml import matplotlib.pyplot as plt def load_and_preprocess_mnist(): """加载MNIST并严格按RBM要求预处理""" # 1. 加载原始数据（60000张训练图） mnist = fetch_openml('mnist_784', version=1, as_frame=False, parser='auto') X, y = mnist["data"], mnist["target"] # 2. 归一化到[0,1] —— 铁律1 X = X.astype(np.float64) / 255.0 # 3. 随机打乱（避免批次内标签集中） np.random.seed(42) indices = np.random.permutation(len(X)) X = X[indices] # 4. 取前10000张用于快速验证（实际项目请用全量） X = X[:10000] # 5. 添加微小噪声（防止单点过拟合，提升泛化） # 噪声标准差设为0.01，远小于信号范围[0,1] noise = np.random.normal(0, 0.01, X.shape) X = np.clip(X + noise, 0, 1) print(f"MNIST预处理完成：{X.shape[0]}样本，{X.shape[1]}维，值域[{X.min():.3f},{X.max():.3f}]") return X # 执行预处理 X_train = load_and_preprocess_mnist()

4.2 RBM类的核心实现：可打断、可监控、可回溯

以下是RBM类的完整实现，重点突出可调试性设计：

class RBM: def __init__(self, visible_size, hidden_size, learning_rate=0.01, l2_reg=1e-4, random_seed=42): """ 初始化RBM参数 :param visible_size: 可见层单元数（如MNIST为784） :param hidden_size: 隐藏层单元数（建议visible_size//3到//2） :param learning_rate: 学习率（默认0.01，高维数据请用0.001） :param l2_reg: L2正则化系数 :param random_seed: 随机种子（确保结果可复现） """ np.random.seed(random_seed) self.visible_size = visible_size self.hidden_size = hidden_size self.learning_rate = learning_rate self.l2_reg = l2_reg # 权重初始化：W ~ N(0, 1/sqrt(visible_size)) # 这比Hinton的0.01更适应不同维度 std_w = 1.0 / np.sqrt(visible_size) self.W = np.random.normal(0, std_w, (visible_size, hidden_size)) # 偏置初始化：a_i, b_j ~ N(0, 0.01) self.a = np.random.normal(0, 0.01, (visible_size, 1)) # 可见层偏置 self.b = np.random.normal(0, 0.01, (hidden_size, 1)) # 隐藏层偏置 # 记录训练历史（用于调试） self.train_history = { 'recon_error': [], 'weight_norm': [], 'hidden_sparsity': [] # 隐藏单元平均激活率 } def sigmoid(self, x): """安全sigmoid，防止溢出""" # 截断x到[-500,500]，避免exp(700)溢出 x = np.clip(x, -500, 500) return 1.0 / (1.0 + np.exp(-x)) def sample_h_given_v(self, v): """给定可见层v，采样隐藏层h""" # 计算每个隐藏单元激活概率：p(h_j=1|v) = sigmoid(b_j + sum_i v_i w_ij) # v: (batch_size, visible_size), W: (visible_size, hidden_size) # 所以 v @ W -> (batch_size, hidden_size) h_prob = self.sigmoid(self.b.T + v @ self.W) # (1, hidden_size) # 随机采样：对每个概率，掷一次硬币 h_sample = np.random.binomial(1, h_prob, size=h_prob.shape) return h_prob, h_sample def sample_v_given_h(self, h): """给定隐藏层h，采样可见层v""" # p(v_i=1|h) = sigmoid(a_i + sum_j h_j w_ij) # h: (batch_size, hidden_size), W.T: (hidden_size, visible_size) v_prob = self.sigmoid(self.a.T + h @ self.W.T) # (1, visible_size) # 关键：对连续输入，v_recon用概率值，非二值采样！ v_recon = v_prob # 直接返回概率，作为重构输出 return v_prob, v_recon def contrastive_divergence(self, v_data, k=1): """ 对比散度CD-k实现 :param v_data: 原始输入数据 (batch_size, visible_size) :param k: CD步数 :return: 正相、负相、重构误差 """ batch_size = v_data.shape[0] # ===== 正相（Positive Phase）===== # 1. 计算隐藏层概率和采样 h_prob_pos, h_sample_pos = self.sample_h_given_v(v_data) # 2. 正相梯度：<v_i h_j>_data = v_data.T @ h_prob_pos # 注意：用h_prob_pos（概率）而非h_sample_pos（采样值） pos_grad = v_data.T @ h_prob_pos # (visible_size, hidden_size) # ===== 负相（Negative Phase）===== # 从v_data开始，运行k步吉布斯采样 v_neg = v_data.copy() # 当前负相可见向量 for step in range(k): # 采样隐藏层 _, h_sample_neg = self.sample_h_given_v(v_neg) # 采样可见层（用概率值，非二值） _, v_neg = self.sample_v_given_h(h_sample_neg) # 计算负相隐藏层概率（用最终v_neg） h_prob_neg, _ = self.sample_h_given_v(v_neg) # 负相梯度：<v_i h_j>_model = v_neg.T @ h_prob_neg neg_grad = v_neg.T @ h_prob_neg # ===== 重构误差（用于监控）===== # 用正相h_prob_pos重构v _, v_recon = self.sample_v_given_h(h_sample_pos) recon_error = np.mean((v_data - v_recon) ** 2) return pos_grad, neg_grad, recon_error, v_recon def train_step(self, v_batch, k=1): """单步训练：计算梯度并更新参数""" pos_grad, neg_grad, recon_error, v_recon = self.contrastive_divergence(v_batch, k) batch_size = v_batch.shape[0] # 计算梯度（除以batch_size归一化） grad_W = (pos_grad - neg_grad) / batch_size grad_a = np.mean(v_batch - v_recon, axis=0, keepdims=True).T grad_b = np.mean(h_prob_pos - h_prob_neg, axis=0, keepdims=True).T # 应用L2正则化（仅对W） grad_W -= 2 * self.l2_reg * self.W # 更新参数 self.W += self.learning_rate * grad_W self.a += self.learning_rate * grad_a self.b += self.learning_rate * grad_b # 记录监控指标 self.train_history['recon_error'].append(recon_error) self.train_history['weight_norm'].append(np.linalg.norm(self.W)) self.train_history['hidden_sparsity'].append(np.mean(h_prob_pos)) return recon_error def transform(self, v_data): """用训练好的RBM提取特征：计算隐藏层概率""" _, h_prob = self.sample_h_given_v(v_data) return h_prob def reconstruct(self, v_data): """重构输入""" _, h_sample = self.sample_h_given_v(v_data) _, v_recon = self.sample_v_given_h(h_sample) return v_recon

4.3 完整训练循环与动态k调整机制

以下是端到端训练脚本，包含动态k调整、早停、可视化：

def train_rbm(rbm, X_train, epochs=50, batch_size=100, k_init=1, k_min=1, k_max=5, patience=5): """ 完整RBM训练循环 :param rbm: RBM实例 :param X_train: 训练数据 :param epochs: 总轮数 :param batch_size: 批大小 :param k_init: 初始k值 :param k_min/k_max: k值上下限 :param patience: 早停耐心值 """ n_samples = X_train.shape[0] k_current = k_init best_error = float('inf') patience_counter = 0 print(f"开始训练RBM：{n_samples}样本，{epochs}轮，初始k={k_current}") for epoch in range(epochs): # 打乱数据（重要！避免批次相关性） indices = np.random.permutation(n_samples) X_shuffled = X_train[indices] total_error = 0 n_batches = 0 # 分批训练 for start_idx in range(0, n_samples, batch_size): end_idx = min(start_idx + batch_size, n_samples) v_batch = X_shuffled[start_idx:end_idx] # 单步训练 error = rbm.train_step(v_batch, k=k_current) total_error += error n_batches += 1 # 每100批打印一次进度 if n_batches % 100 == 0: avg_error = total_error / n_batches print(f" Epoch {epoch+1}/{epochs} | Batch {n_batches} | " f"Recon Error: {avg_error:.4f} | k={k_current}") # 计算本轮平均重构误差 epoch_error = total_error / n_batches print(f"Epoch {epoch+1} 完成 | 平均重构误差: {epoch_error:.4f}") # ===== 动态k调整 ===== # 计算最近5轮误差的变异系数（CV） if len(rbm.train_history['recon_error']) >= 5: recent_errors = rbm.train_history['recon_error'][-5:] cv = np.std(recent_errors) / (np.mean(recent_errors) + 1e-8) if cv > 0.15 and k_current < k_max: k_current += 1 print(f" CV={cv:.3f}>0.15，k提升至{k_current}") elif cv < 0.05 and k_current > k_min: k_current = max(k_min, k_current - 1) print(f" CV={cv:.3f}<0.05，k降低至{k_current}") # ===== 早停机制 ===== if epoch_error < best_error - 1e-5: # 改进阈值 best_error = epoch_error patience_counter = 0 else: patience_counter += 1 if patience_counter >= patience: print(f" 连续{patience}轮无改进，触发早停") break print("训练完成！") # 实例化并训练 rbm = RBM(visible_size=784, hidden_size=200, learning_rate=0.005) train_rbm(rbm, X_train, epochs=30, batch_size=128, k_init=1) # 绘制训练曲线 plt.figure(figsize=(15, 5)) plt.subplot(1, 3, 1) plt.plot(rbm.train_history['recon_error']) plt.title('重构误差变化') plt.xlabel('训练步数') plt.ylabel('MSE') plt.subplot(1, 3, 2) plt.plot(rbm.train_history['weight_norm']) plt.title('权重范数变化') plt.xlabel('训练步数') plt.ylabel('||W||_F') plt.subplot(1, 3, 3) plt.plot(rbm.train_history['hidden_sparsity']) plt.title('隐藏层稀疏度') plt.xlabel('训练步数') plt.ylabel('平均激活率') plt.tight_layout() plt.show()

4.4 特征可视化与模型诊断：看懂RBM在“想”什么

训练完成后，最关键的一步是可视化隐藏单元的权重。每个隐藏单元j对应权重向量$w_{:j}$（W的第j列），它本质上是一个“特征探测器”。我们将它重塑为28×28图像，就能看到它在检测什么模式：

def visualize_features(rbm, n_cols=10, n_rows=10): """可视化隐藏层权重，每行显示10个特征""" W = rbm.W # (784, 200) plt.figure(figsize=(12, 12)) for i in range(min(n_cols * n_rows, W.shape[1])): plt.subplot(n_rows, n_cols, i + 1) # 取第i个隐藏单元的权重，reshape为28x28 feature = W[:, i].reshape(28, 28) # 归一化到[0,1]以便显示 feature = (feature - feature.min()) / (feature.max() - feature.min() + 1e-8) plt.imshow(feature, cmap='gray') plt.axis('off') plt.title(f'Feature {i+1}') plt.suptitle('RBM学习到的200个隐藏特征（权重可视化）', fontsize=14) plt.tight_layout() plt.show() # 执行可视化 visualize_features(rbm)

你会看到一些经典模式：边缘检测器（亮边暗背景）、斑点检测器（中心亮周围暗）、纹理检测器（周期性明暗条纹）。这些不是人为设计的，而是RBM从784维像素中自主发现的统计规律。更重要的是，你可以用这些特征做迁移学习：将MNIST训练好的RBM的隐藏层输出（200维）作为新任务的输入特征，喂给一个简单的SVM分类器，准确率可达95%以上——这证明RBM确实学到了高质量的表征。

注意：权重可视化前必须归一化！原始权重范围可能从-0.5到0.8，直接显示会丢失细节。我曾因忘记归一化，看到一片灰蒙蒙的图像，以为模型没学好，结果调试半天发现只是显示问题。

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 “重构误差不下降”问题的五层排查法

这是RBM训练中最常见的症状。不要急着调参，按以下顺序逐层排查：

排查层级	检查项	快速验证方法	典型表现	解决方案
L1 数据层	输入是否归一化？	`print(X_train.min(), X_train.max())`	值域为[0,255]或[-1,1]	除以255或线性映射到[0,1]
L2 初始化层	权重标准差是否合理？	`print(np.std(rbm.W))`	std < 0.001 或 > 0.1	重设为`1/sqrt(visible_size)`
L3 采样层	是否用了`np.random.binomial`？	检查代码中是否有`np.round`	重构误差卡在0.4左右不动	替换为`binomial(1, prob)`
L4 梯度层	正相是否用`h_prob`而非`h_sample`？	打印`pos_grad`和`neg_grad`形状	两者形状不一致（如784×200 vs 784×1）	确保`v.T @ h_prob`，非`v.T @ h_sample`
L5 数值层	是否有`nan`或`inf`？	`np.isnan(rbm.W).any()`	训练几轮后`recon_error`变为`nan`	加`np.clip`，检查sigmoid输入是否溢出