当前位置：首页 > news >正文

PyTorch LBFGS：突破传统优化范式，以闭包之力驾驭非凸地形

news 2026/6/2 5:27:40

1. 为什么LBFGS在PyTorch中如此特别？

当你第一次在PyTorch中使用LBFGS优化器时，可能会被它奇怪的用法搞得一头雾水。其他优化器如SGD、Adam都是三步走：计算损失、反向传播、参数更新。但LBFGS却要求你把整个计算过程封装在一个叫"闭包"(closure)的函数里，再把这个函数传给step()方法。这到底是怎么回事？

其实这种设计背后隐藏着LBFGS算法的核心思想。LBFGS全称是Limited-memory Broyden-Fletcher-Goldfarb-Shanno，是一种拟牛顿法。与普通的一阶优化器不同，它需要近似计算Hessian矩阵（二阶导数信息）来指导优化方向。而闭包机制正是为了支持这种复杂的多步计算过程。

想象你在爬山，普通优化器就像只看着脚下的路一步步走，而LBFGS则会先观察周围地形，规划出一条更优的路径。闭包函数就是让它能够反复"观察"当前点的地形特征。

2. 深入理解LBFGS的闭包机制

2.1 闭包函数的作用原理

闭包在LBFGS中扮演着关键角色。当你调用optimizer.step(closure)时，LBFGS会在内部多次执行这个闭包函数。每次执行都会：

清空梯度（zero_grad）
计算当前参数下的损失值
反向传播计算梯度
返回损失值

这种设计允许LBFGS在单次参数更新中执行多次前向-反向计算，这是因为它需要进行线搜索(line search)来确定最优步长。普通优化器通常使用固定学习率，而LBFGS会动态调整。

def closure(): optimizer.zero_grad() loss = model(inputs, targets) loss.backward() return loss

2.2 与传统优化器的对比

让我们用经典的Rosenbrock函数来对比LBFGS和SGD的表现。这个函数被称为"香蕉函数"，因为它的等高线呈香蕉形状，有一个狭长的谷底通向全局最小值(1,1)。

def rosenbrock(x): return (1 - x[0])**2 + 100 * (x[1] - x[0]**2)**2

使用SGD时，参数更新是直线向下的：

x = torch.tensor([-1.0, 2.0], requires_grad=True) opt = torch.optim.SGD([x], lr=1e-5) for i in range(1000): opt.zero_grad() loss = rosenbrock(x) loss.backward() opt.step()

而LBFGS则能更好地沿着谷底前进：

x = torch.tensor([-1.0, 2.0], requires_grad=True) opt = torch.optim.LBFGS([x], line_search_fn='strong_wolfe') def closure(): opt.zero_grad() loss = rosenbrock(x) loss.backward() return loss for i in range(100): opt.step(closure)

实测下来，LBFGS通常能在几十次迭代内收敛，而SGD可能需要上千次，而且容易在谷底两侧振荡。

3. LBFGS的核心参数解析

3.1 history_size：记忆窗口的大小

LBFGS通过存储最近的梯度变化来近似Hessian矩阵。history_size决定了存储多少步的历史信息。较大的值能提供更准确的二阶近似，但会消耗更多内存。

# 存储最近20步的梯度信息 optim.LBFGS(params, history_size=20)

经验表明，对于大多数问题，10-20的history_size已经足够。更大的值带来的收益会递减。

3.2 max_iter：每次更新的最大迭代次数

这个参数控制每次调用step()时，内部线搜索的最大迭代次数。注意这不是整个训练的总迭代次数。

# 每次step最多尝试5次线搜索 optim.LBFGS(params, max_iter=5)

设置太大可能导致单次更新耗时过长，太小可能找不到好的步长。通常4-10是比较合理的范围。

3.3 line_search_fn：线搜索策略

PyTorch提供了两种线搜索算法：

None：基本的Armijo条件回溯线搜索
'strong_wolfe'：满足强Wolfe条件的线搜索

# 使用强Wolfe条件线搜索 optim.LBFGS(params, line_search_fn='strong_wolfe')

强Wolfe搜索通常能带来更稳定的收敛，但计算量稍大。对于简单问题，使用None可能就够了。

4. 实战：在神经网络中使用LBFGS

4.1 全连接网络的训练

虽然LBFGS常用于小规模优化问题，但在某些神经网络场景下也能发挥作用。比如训练小型全连接网络：

model = nn.Sequential( nn.Linear(784, 256), nn.ReLU(), nn.Linear(256, 10) ) optimizer = optim.LBFGS(model.parameters(), lr=1, max_iter=10) def closure(): optimizer.zero_grad() output = model(inputs) loss = criterion(output, targets) loss.backward() return loss for epoch in range(10): optimizer.step(closure)

注意这里的学习率lr意义不同，因为实际步长由线搜索决定。通常可以设为1，让线搜索来调整。