当前位置：首页 > news >正文

最速下降法与牛顿法从零手写实战：原理、陷阱与收敛对比

news 2026/6/14 5:33:01

1. 项目概述：为什么两个“下山”算法值得你亲手写一遍

在数值优化的世界里，“找最低点”这件事，听起来简单，做起来却像在浓雾中攀爬一座没有路标的山——你只能靠脚下每一步的坡度和曲率来判断方向。Steepest Descent（最速下降法）和Newton’s Method（牛顿法）就是两种截然不同的登山策略：前者只带一个罗盘（梯度），永远朝当下最陡的方向迈一小步；后者则多带了一张手绘地形图（Hessian矩阵），能预判山势的弯曲程度，从而跨出更聪明、更长的一步。这篇博文不调用scipy.optimize，不抄现成轮子，而是从零开始，在 Python 中逐行实现这两个经典算法，并把它们放在同一组函数、同一套收敛标准、同一台笔记本上真刀真枪地比一比：谁更快？谁更稳？谁在什么地形下会迷路？谁又会在什么条件下直接滑下悬崖？这不是教科书里的理论推导，而是我连续三天调试 Jacobian 符号求导、手算 Hessian 矩阵、反复修改步长衰减因子后，整理出的一份可复现、可验证、可 debug 的实战笔记。无论你是刚学完《数值分析》期末考的本科生，还是正在为模型训练卡在局部极小值而挠头的工程师，只要你需要理解“优化器内部到底在算什么”，而不是只把它当黑盒调用，这篇内容就值得你花45分钟，跟着代码一行行敲下来。

2. 核心思路拆解：为什么必须“从零手写”，而不是直接调库

2.1 两种算法的本质差异，决定了它们的实现逻辑完全不同

最速下降法的核心思想极其朴素：在当前点 $x_k$，函数下降最快的方向就是负梯度方向 $-\nabla f(x_k)$。于是下一步的位置就是 $x_{k+1} = x_k - \alpha_k \nabla f(x_k)$，其中 $\alpha_k$ 是步长（learning rate）。它只需要一阶导数，计算轻量，内存友好，但有个致命弱点：它对函数的“形状”一无所知。想象你在一条狭长的山谷底部行走——梯度方向永远垂直于等高线，而狭长山谷的等高线像一串拉长的椭圆，导致梯度方向剧烈摆动，算法会像醉汉一样左右横跳，收敛慢得令人心焦。我在测试 Rosenbrock 函数（那个著名的“香蕉函数”）时，最速下降法跑了2300多步才勉强进入 $10^{-5}$ 精度，而牛顿法只用了12步。这个数量级的差距，不是参数调优能抹平的，而是算法基因决定的。

牛顿法则完全不同。它基于函数在 $x_k$ 处的二阶泰勒展开：$f(x) \approx f(x_k) + \nabla f(x_k)^T (x - x_k) + \frac{1}{2}(x - x_k)^T \mathbf{H}(x_k)(x - x_k)$。让这个二次近似函数的梯度为零，就能解出最优步长方向：$\mathbf{H}(x_k) d_k = -\nabla f(x_k)$，即 $d_k = -\mathbf{H}(x_k)^{-1}\nabla f(x_k)$。所以牛顿法的更新公式是 $x_{k+1} = x_k - \mathbf{H}(x_k)^{-1}\nabla f(x_k)$。它本质上是在每一步都用一个抛物面去“贴合”原函数，然后跳到这个抛物面的顶点。这带来了超线性甚至二次收敛速度，但也付出了巨大代价：每一步都要计算并求逆一个 $n \times n$ 的 Hessian 矩阵。对于100维的问题，Hessian 就是10000个二阶偏导，求逆的计算复杂度是 $O(n^3)$。我第一次实现时，直接对一个4维函数求解析 Hessian，手写了整整两页纸的偏导表达式，光是检查符号错误就花了两个小时。后来我才明白，为什么工业界几乎不用纯牛顿法——不是它不好，而是太贵。

2.2 “从零手写”的真正价值：暴露所有被封装掉的魔鬼细节

调用scipy.optimize.minimize(method='BFGS')一行代码就能跑通，但它背后隐藏了至少五个关键决策点：初始步长怎么设？Hessian 近似如何更新？线搜索用的是 Armijo 还是 Wolfe 条件？梯度精度不够时如何自适应调整？遇到奇异 Hessian 怎么兜底？这些在“从零手写”的过程中，你无法回避，必须亲手面对。比如，牛顿法要求 Hessian 矩阵正定，否则下降方向 $d_k$ 可能不是下降方向（即 $\nabla f^T d_k > 0$），算法会直接发散。我在实现 Rosenbrock 函数时，第7步的 Hessian 矩阵特征值出现了负数，程序直接报错LinAlgError: Matrix is not positive definite。这时候，你不能删掉这行代码去“绕过问题”，而必须引入修正策略：要么加一个小的单位矩阵扰动（$ \mathbf{H} + \epsilon I $），要么切换到 Levenberg-Marquardt 阻尼策略。这个过程，就是从“会用工具”到“理解工具”的分水岭。再比如，最速下降法的步长 $\alpha_k$，理论上应该通过精确线搜索找到使 $f(x_k - \alpha \nabla f(x_k))$ 最小的 $\alpha$，但实际中我们几乎从不这么做，因为太费时间。取而代之的是回溯线搜索（Backtracking Line Search）：先猜一个 $\alpha$（比如1.0），如果新点函数值没下降足够多（不满足 Armijo 条件），就按固定比例（比如0.8）缩小它，直到满足条件。这个“足够多”是多少？Armijo 参数 $\beta$ 通常取 $10^{-4}$，但我在测试一个病态函数时，发现必须调到 $10^{-2}$ 才能稳定收敛。这些数字背后，是大量实验和对函数局部 Lipschitz 常数的隐含估计。只有亲手写，你才会真正记住：优化算法的鲁棒性，90%取决于线搜索的质量，而不是主迭代公式的华丽程度。

2.3 为什么选择 Python 而非 C++ 或 Julia？以及“从零”的边界在哪里

有人会问，既然是“从零”，为什么不连梯度都手动差分计算？为什么不自己写矩阵求逆？我的答案很务实：“从零”的目标是理解算法逻辑与数值行为，而不是重复造所有轮子。我们使用numpy进行向量/矩阵运算，因为它提供了清晰、可靠的底层接口，且其linalg.solve比手动实现的 LU 分解更稳定、更快速；我们使用sympy进行符号微分，因为它能生成精确的解析梯度和 Hessian，避免了数值差分带来的截断误差和舍入噪声——这对于验证算法正确性至关重要。我曾用中心差分（central difference）计算 Rosenbrock 的梯度，结果在迭代后期，由于函数值本身已非常小（$10^{-10}$ 量级），差分步长 $h=10^{-6}$ 导致的相对误差高达 $10^{-4}$，直接让牛顿法的收敛性完全失效。而sympy给出的解析梯度，是数学上100%精确的。所以，“从零”的边界划在这里：核心迭代逻辑、线搜索策略、收敛判定、结果可视化，全部手写；基础数学运算、符号求导、高效线性代数求解，交给经过千锤百炼的成熟库。这就像一个厨师，他不必自己冶炼铁矿石来打菜刀，但他必须清楚每一把刀的刃角、钢材、热处理工艺，才能知道该用哪一把切洋葱，哪一把剁排骨。

3. 核心细节解析：梯度、Hessian 与线搜索的实操要点

3.1 梯度与 Hessian 的获取：符号计算 vs 数值差分，选哪个？

在“从零手写”的语境下，梯度和 Hessian 的获取方式，直接决定了算法的精度上限和适用范围。我对比了三种主流方法：

手动解析推导：对简单函数（如 $f(x,y)=x^2 + y^2$）可行，但对 Rosenbrock $f(x,y) = 100(y-x^2)^2 + (1-x)^2$，其梯度 $\nabla f = [ -400x(y-x^2) - 2(1-x),\ 200(y-x^2) ]$ 和 Hessian 矩阵（一个2x2满阵，每个元素都是 $x,y$ 的多项式）的手工推导极易出错。我第一次手算 Hessian 的 (1,1) 元素时，漏掉了链式法则里的一次乘法，导致整个牛顿步方向错误，花了半天才定位到这个低级错误。
数值差分（Numerical Differentiation）：用前向差分 $\partial f/\partial x_i \approx (f(x+h e_i) - f(x))/h$ 或中心差分 $\approx (f(x+h e_i) - f(x-h e_i))/(2h)$。中心差分精度更高（$O(h^2)$），但需要两次函数求值。问题在于 $h$ 的选取：$h$ 太大，截断误差大；$h$ 太小，舍入误差主导。一个经验公式是 $h \approx \sqrt{\epsilon} |x|$，其中 $\epsilon$ 是机器精度（np.finfo(float).eps ≈ 2.2e-16），所以 $h \approx 1.5e-8$。但在实践中，我发现在函数值本身很小（如 $10^{-12}$）时，这个 $h$ 会导致差分结果被浮点噪声淹没。因此，我最终采用scipy.optimize.approx_fprime作为备用方案，它内部实现了自适应步长选择，比自己硬编码更可靠。
符号计算（Symbolic Differentiation）：这是本项目的首选。sympy库可以将 Python 函数“翻译”成符号表达式，然后自动求导。例如，定义x, y = symbols('x y')，f_sym = 100*(y - x**2)**2 + (1 - x)**2，然后grad_sym = [diff(f_sym, x), diff(f_sym, y)]，hess_sym = [[diff(g, var) for var in [x, y]] for g in grad_sym]。最后，用lambdify将符号表达式编译成高效的 numpy 函数。这种方法生成的梯度和 Hessian 是数学上精确的，没有数值误差，是验证其他方法正确性的黄金标准。我在项目中，始终用sympy版本作为 ground truth，所有数值方法的结果都与之对比，误差超过 $10^{-10}$ 就视为实现有 bug。

提示：sympy.lambdify编译后的函数，首次调用会有明显延迟（编译开销），但后续调用极快。建议在算法启动前，先用一个 dummy 输入调用一次，完成 JIT 编译。

3.2 线搜索（Line Search）：Armijo 条件的工程化实现

线搜索是连接“方向”和“步长”的关键桥梁。最速下降法和牛顿法都需要它，但牛顿法对线搜索的要求更高——因为牛顿方向本身可能不是下降方向（当 Hessian 不正定时），线搜索必须能“兜住”这种风险。我实现了经典的回溯线搜索（Backtracking Line Search），其核心是 Armijo 条件：
$$ f(x_k + \alpha d_k) \leq f(x_k) + c_1 \alpha \nabla f(x_k)^T d_k $$
其中 $c_1$ 是常数（通常 $10^{-4}$），右边是函数值在 $x_k$ 处沿方向 $d_k$ 的一阶线性近似。这个不等式保证了函数值的下降量，至少是线性近似下降量的一个固定比例。

在代码实现中，有三个关键参数需要谨慎设置：

初始步长 $\alpha_0$：我默认设为1.0。对于大多数良态函数，这是个好起点。但对于某些函数（如指数函数），初始步长过大可能导致函数值爆炸，此时应设为一个较小的值（如0.1）。
缩减因子 $\rho$：每次不满足 Armijo 条件时，将 $\alpha$ 乘以 $\rho$。我取 $\rho = 0.8$，这是一个在收敛速度和稳定性之间取得良好平衡的经验值。$\rho$ 太小（如0.1），会导致步长衰减过快，收敛变慢；$\rho$ 太大（如0.99），可能导致多次尝试仍不满足条件，效率低下。
Armijo 常数 $c_1$：我设为 $1e-4$。这个值越小，条件越宽松，越容易接受较大的步长；越大，条件越严格，步长越保守。在测试一个高度非线性的函数时，我发现 $c_1 = 1e-2$ 才能让算法稳定收敛，这说明该函数在当前点的局部 Lipschitz 常数很大，需要更“谨慎”的步长。

一个容易被忽略的工程细节是：必须设置最大回溯次数。否则，当方向 $d_k$ 根本不是下降方向时（例如牛顿法遇到奇异 Hessian），算法会陷入无限循环，不断将 $\alpha$ 缩小到接近零，却永远无法满足 Armijo 条件。我在代码中设置了max_backtracks=25，一旦达到此限制，就强制终止并返回一个标志位，通知主循环该步失败，需要采取修正措施（如 Hessian 正则化）。

3.3 收敛判定：不能只看梯度模长，还要看“变化量”

一个常见的新手误区是，认为只要梯度模长 $|\nabla f(x_k)| < \epsilon$，就可以停止迭代。这在理论上是正确的（一阶最优性条件），但在工程实践中，它可能过早终止，也可能永不终止。原因有二：

尺度问题（Scaling Issue）：如果变量 $x$ 的量纲差异巨大（例如一个维度是公里，另一个是纳米），梯度的各个分量大小天差地别，单一的 $\epsilon$ 阈值无法公平地衡量所有分量。Rosenbrock 函数就是一个典型例子：在最优解 $(1,1)$ 附近，$x$ 方向的梯度变化缓慢，而 $y$ 方向的梯度变化剧烈。用统一阈值，很容易在 $y$ 方向还没收敛时，就因 $x$ 方向梯度小而误判。
数值噪声（Numerical Noise）：在迭代后期，函数值和梯度值本身已经非常小（$10^{-15}$ 量级），此时浮点运算的舍入误差会与真实梯度混在一起，导致 $|\nabla f|$ 在 $\epsilon$ 附近无意义地振荡。

因此，我采用了三重收敛判定，缺一不可：

梯度准则：$|\nabla f(x_k)|\infty < \epsilon{grad}$。这里用无穷范数（即梯度各分量绝对值的最大值），比2范数更能反映单个维度的收敛情况。$\epsilon_{grad} = 1e-8$。
步长准则：$|x_{k+1} - x_k|\infty < \epsilon{step}$。这确保了变量本身不再发生显著变化。$\epsilon_{step} = 1e-8$。
函数值准则：$|f(x_{k+1}) - f(x_k)| < \epsilon_{func} \cdot (1 + |f(x_k)|)$。这里用相对误差，避免了绝对误差在函数值很大或很小时的失准。$\epsilon_{func} = 1e-10$。

只有当这三个条件同时满足时，算法才宣告收敛。我在调试时，曾发现牛顿法在第11步就满足了梯度准则，但函数值准则不满足，继续迭代到第12步才完全稳定。这额外的一步，正是为了确认“下降真的结束了”，而不是“梯度暂时碰巧很小”。

4. 实操过程：从定义函数到绘制对比图的完整流程

4.1 定义测试函数与符号化：Rosenbrock 与 Quadratic 的双轨验证

任何数值算法的验证，都离不开精心设计的测试函数。我选择了两个具有代表性的函数：

Rosenbrock 函数（香蕉函数）：$f(x,y) = 100(y-x^2)^2 + (1-x)^2$。这是优化领域的“试金石”。它的全局最小值在 $(1,1)$，函数值为0。但其等高线是高度拉伸的椭圆形，形成一个狭窄的弯曲山谷。最速下降法在此函数上表现极差，是检验算法能否处理病态问题的绝佳场景。
二次函数（Quadratic Function）：$f(x,y) = \frac{1}{2}x^T A x - b^T x$，其中 $A = \begin{bmatrix} 10 & 1 \ 1 & 1 \end{bmatrix}, b = \begin{bmatrix} 1 \ 1 \end{bmatrix}$。这是一个良态的凸二次函数，其 Hessian 矩阵 $A$ 是常数且正定。牛顿法对于二次函数，理论上只需一步就能到达精确解（因为二阶泰勒展开就是函数本身）。这为我们提供了一个完美的“压力测试”：如果牛顿法在二次函数上不能一步收敛，那一定是我们的 Hessian 计算或求解有 bug。

下面是完整的 Python 初始化代码，展示了如何用sympy对这两个函数进行符号化：

import numpy as np import sympy as sp from sympy import symbols, diff, lambdify, Matrix # --- 1. Rosenbrock 函数 --- x_sym, y_sym = symbols('x y') f_rosen_sym = 100 * (y_sym - x_sym**2)**2 + (1 - x_sym)**2 # 计算梯度和 Hessian grad_rosen_sym = [diff(f_rosen_sym, var) for var in [x_sym, y_sym]] hess_rosen_sym = Matrix([[diff(g, var) for var in [x_sym, y_sym]] for g in grad_rosen_sym]) # 编译为 numpy 函数 f_rosen = lambdify([x_sym, y_sym], f_rosen_sym, 'numpy') grad_rosen = lambdify([x_sym, y_sym], grad_rosen_sym, 'numpy') hess_rosen = lambdify([x_sym, y_sym], hess_rosen_sym, 'numpy') # --- 2. 二次函数 --- A = np.array([[10.0, 1.0], [1.0, 1.0]]) b = np.array([1.0, 1.0]) x_vec_sym = Matrix([x_sym, y_sym]) f_quad_sym = 0.5 * x_vec_sym.T * Matrix(A) * x_vec_sym - Matrix(b).T * x_vec_sym # 同样计算梯度和 Hessian grad_quad_sym = [diff(f_quad_sym[0], var) for var in [x_sym, y_sym]] hess_quad_sym = Matrix([[diff(g, var) for var in [x_sym, y_sym]] for g in grad_quad_sym]) f_quad = lambdify([x_sym, y_sym], f_quad_sym[0], 'numpy') grad_quad = lambdify([x_sym, y_sym], grad_quad_sym, 'numpy') hess_quad = lambdify([x_sym, y_sym], hess_quad_sym, 'numpy')

这段代码的关键在于，它为后续的算法实现提供了统一、精确的函数接口。f_rosen,grad_rosen,hess_rosen这些函数，输入是标量x和y，输出是标量函数值、2维梯度向量、2x2 Hessian 矩阵。这种接口设计，使得算法主循环可以完全不关心函数的具体形式，只与这些接口交互，极大提升了代码的可复用性和可测试性。

4.2 最速下降法（Steepest Descent）的完整实现

最速下降法的实现看似简单，但细节决定成败。以下是经过充分测试的、生产级的实现：

def steepest_descent(f, grad_f, x0, max_iter=1000, alpha0=1.0, rho=0.8, c1=1e-4, eps_grad=1e-8, eps_step=1e-8, eps_func=1e-10, verbose=False): """ 最速下降法实现 :param f: 目标函数，输入 (x, y)，输出标量 :param grad_f: 梯度函数，输入 (x, y)，输出 2D numpy array :param x0: 初始点，2D numpy array :param max_iter: 最大迭代次数 :param alpha0: 初始步长 :param rho: 回溯缩减因子 :param c1: Armijo 条件常数 :param eps_grad: 梯度无穷范数收敛阈值 :param eps_step: 步长无穷范数收敛阈值 :param eps_func: 函数值相对变化收敛阈值 :return: history 字典，包含所有迭代记录 """ x = np.array(x0, dtype=float) history = {'x': [x.copy()], 'f': [f(*x)], 'grad_norm': []} for k in range(max_iter): # 1. 计算梯度 g = np.array(grad_f(*x)) grad_norm = np.max(np.abs(g)) # 无穷范数 history['grad_norm'].append(grad_norm) # 2. 检查收敛性（三重判定） if grad_norm < eps_grad: if verbose: print(f"SD converged at iteration {k} due to gradient.") break # 3. 确定搜索方向：负梯度 d = -g # 4. 回溯线搜索 alpha = alpha0 f_x = f(*x) gTd = g @ d # 注意：d = -g, 所以 gTd = -||g||^2 < 0 max_backtracks = 25 for _ in range(max_backtracks): x_new = x + alpha * d f_new = f(*x_new) # Armijo 条件: f(x + alpha*d) <= f(x) + c1 * alpha * g^T d if f_new <= f_x + c1 * alpha * gTd: break alpha *= rho else: # 达到最大回溯次数，线搜索失败 if verbose: print(f"SD line search failed at iteration {k}.") break # 5. 更新点 x_new = x + alpha * d step_norm = np.max(np.abs(x_new - x)) # 6. 检查步长和函数值收敛 if step_norm < eps_step: if verbose: print(f"SD converged at iteration {k} due to step size.") break f_new = f(*x_new) func_rel_change = np.abs(f_new - f_x) / (1 + np.abs(f_x)) if func_rel_change < eps_func: if verbose: print(f"SD converged at iteration {k} due to function value.") break # 7. 更新历史记录并准备下一轮 x = x_new history['x'].append(x.copy()) history['f'].append(f_new) # 转换为 numpy 数组以便后续分析 history['x'] = np.array(history['x']) history['f'] = np.array(history['f']) history['grad_norm'] = np.array(history['grad_norm']) return history

这个实现的亮点在于其健壮性。它包含了完整的错误处理（线搜索失败）、三重收敛判定、以及详细的verbose输出，方便调试。注意gTd的计算：因为d = -g，所以gTd必然是负数，这保证了 Armijo 条件右边是一个比f_x更小的值，从而有意义。我在第一次实现时，错误地计算了d @ d，导致条件恒成立，步长永远不缩减，算法直接飞出定义域。

4.3 牛顿法（Newton's Method）的完整实现与 Hessian 正则化

牛顿法的实现比最速下降法复杂得多，核心难点在于 Hessian 矩阵的求逆和正则化。以下是关键代码：

def newton_method(f, grad_f, hess_f, x0, max_iter=100, alpha0=1.0, rho=0.8, c1=1e-4, eps_grad=1e-8, eps_step=1e-8, eps_func=1e-10, reg_param=1e-8, verbose=False): """ 牛顿法实现，包含 Hessian 正则化 :param reg_param: Hessian 正则化参数，用于处理非正定情况 """ x = np.array(x0, dtype=float) history = {'x': [x.copy()], 'f': [f(*x)], 'grad_norm': [], 'hess_cond': []} for k in range(max_iter): # 1. 计算梯度和 Hessian g = np.array(grad_f(*x)) H = np.array(hess_f(*x)) grad_norm = np.max(np.abs(g)) history['grad_norm'].append(grad_norm) # 计算 Hessian 条件数，用于监控病态程度 try: cond_num = np.linalg.cond(H) except: cond_num = np.inf history['hess_cond'].append(cond_num) # 2. 检查收敛性 if grad_norm < eps_grad: if verbose: print(f"Newton converged at iteration {k} due to gradient.") break # 3. 计算牛顿方向：解 H * d = -g # 使用正则化： (H + reg_param * I) * d = -g H_reg = H + reg_param * np.eye(len(x)) try: d = np.linalg.solve(H_reg, -g) except np.linalg.LinAlgError: # 如果正则化后仍奇异，增大正则化参数 reg_param *= 10 if verbose: print(f"Iter {k}: Hessian singular, increasing reg_param to {reg_param:.2e}") H_reg = H + reg_param * np.eye(len(x)) d = np.linalg.solve(H_reg, -g) # 4. 回溯线搜索（同 SD，但方向 d 是牛顿方向） alpha = alpha0 f_x = f(*x) gTd = g @ d max_backtracks = 25 for _ in range(max_backtracks): x_new = x + alpha * d f_new = f(*x_new) if f_new <= f_x + c1 * alpha * gTd: break alpha *= rho else: # 线搜索失败，尝试增大正则化参数并重试 reg_param *= 10 if verbose: print(f"Iter {k}: Line search failed, increasing reg_param to {reg_param:.2e}") continue # 重新计算 d # 5. 更新点并检查收敛 x_new = x + alpha * d step_norm = np.max(np.abs(x_new - x)) f_new = f(*x_new) func_rel_change = np.abs(f_new - f_x) / (1 + np.abs(f_x)) if step_norm < eps_step or func_rel_change < eps_func: if verbose: print(f"Newton converged at iteration {k}.") break x = x_new history['x'].append(x.copy()) history['f'].append(f_new) history['x'] = np.array(history['x']) history['f'] = np.array(history['f']) history['grad_norm'] = np.array(history['grad_norm']) history['hess_cond'] = np.array(history['hess_cond']) return history

这个实现的核心创新点是自适应 Hessian 正则化。reg_param初始为 $10^{-8}$，一旦np.linalg.solve报错（矩阵奇异），就将其乘以10，然后重试。这比简单的H + epsilon*I更智能，因为它只在必要时才增加扰动，避免了过度正则化导致收敛变慢。我在测试 Rosenbrock 时，发现算法在第5步和第8步分别触发了正则化，reg_param最终增长到 $10^{-5}$，但算法依然在12步内稳定收敛。这证明了该策略的有效性。此外，我还记录了每一步的 Hessian 条件数hess_cond，这为后续分析算法为何在某一步变慢提供了直接证据。

4.4 运行对比与结果可视化：一张图看懂所有差异

有了两个算法的实现，接下来就是运行和对比。我为 Rosenbrock 函数设置了相同的初始点 $(-1.2, 1.0)$，这是文献中常用的、能充分暴露算法差异的起点。

# 设置初始点 x0 = np.array([-1.2, 1.0]) # 运行两种算法 print("Running Steepest Descent...") sd_hist = steepest_descent(f_rosen, grad_rosen, x0, verbose=True) print("\nRunning Newton's Method...") newton_hist = newton_method(f_rosen, grad_rosen, hess_rosen, x0, verbose=True) # 打印关键统计信息 print(f"\n--- Summary ---") print(f"Steepest Descent: {len(sd_hist['x'])} iterations, final f={sd_hist['f'][-1]:.2e}") print(f"Newton's Method: {len(newton_hist['x'])} iterations, final f={newton_hist['f'][-1]:.2e}")

运行结果令人震撼：

SD converged at iteration 2341 due to gradient. Newton converged at iteration 12. --- Summary --- Steepest Descent: 2342 iterations, final f=1.23e-11 Newton's Method: 13 iterations, final f=2.17e-16

牛顿法不仅快了近200倍，而且最终精度还高出5个数量级。但这只是冰山一角。为了深入理解，我绘制了四张关键图表：

迭代轨迹图（Contour Plot）：在 Rosenbrock 的等高线图上，画出两种算法的每一步位置。最速下降法的轨迹像一条在山谷两侧疯狂弹跳的蛇，而牛顿法的轨迹则是一条平滑、直接、近乎直线的路径，直指最小值点 $(1,1)$。
函数值下降曲线（Log Scale）：横轴是迭代次数，纵轴是 $\log_{10}(f(x_k))$。最速下降法的曲线是一条缓慢、近乎线性的下降直线（线性收敛），而牛顿法的曲线在前期是陡峭的直线（二次收敛），后期则变成一条水平线（达到机器精度）。
梯度范数下降曲线：横轴迭代次数，纵轴 $\log_{10}(|\nabla f(x_k)|_\infty)$。这直观地展示了两种算法满足一阶最优性条件的速度。牛顿法的梯度在10步内就从 $10^2$ 降到了 $10^{-8}$，而最速下降法需要2000步。
Hessian 条件数监控图：仅对牛顿法，横轴迭代次数，纵轴 $\log_{10}(\text{cond}(H_k))$。这张图显示，在迭代初期，Hessian 的条件数高达 $10^4$，解释了为何早期需要正则化；随着点靠近最小值，条件数迅速下降到 $10^1$，算法进入“黄金收敛区”。

这些图表不是为了炫技，而是为了回答一个根本问题：算法的性能差异，根源在于其对函数几何结构的利用程度。最速下降法只看到了“坡有多陡”，而牛顿法还看到了“坡有多弯”。在平坦、宽阔的区域，两者差别不大；但在狭窄、弯曲的山谷里，后者的优势是压倒性的。这个结论，只有当你亲手画出这些图，看着那条“弹跳的蛇”和那条“笔直的线”时，才会刻进你的肌肉记忆里。

5. 常见问题与排查技巧实录：那些让我熬夜到凌晨三点的坑

5.1 问题速查表：从报错信息到根本原因

报错信息 / 异常现象	最可能的根本原因	排查与解决技巧
`LinAlgError: Singular matrix`	Hessian 矩阵在当前点奇异（行列式为零），无法求逆。常见于对称点、鞍点或函数平坦区域。	立即检查：打印`np.linalg.det(H)`和`np.linalg.eigvals(H)`。如果存在零或负特征值，说明 Hessian 不正定。解决方案：启用 Hessian 正则化（`H + epsilon*I`），并动态调整`epsilon`。
`RuntimeWarning: invalid value encountered in double_scalars`	在计算`f(x_new)`时，`x_new`的某个分量溢出（如`inf`或`nan`），导致后续所有计算失效。	溯源：在`f`函数开头添加`if np.any(np.isnan(x)) or np.any(np.isinf(x)): raise ValueError("x contains nan/inf")`。预防：在线搜索前，先检查`alpha * d`是否会导致 `x + alpha * d