当前位置：首页 > news >正文

从岭回归到Lasso：正则化原理、稀疏性与ADMM算法实践

news 2026/7/13 7:28:18

1. 项目概述：从岭回归到Lasso的深度解析

在机器学习和统计建模的实践中，我们常常面临一个核心矛盾：模型在训练数据上表现优异，但在未见过的数据上却一塌糊涂，这就是所谓的“过拟合”。想象一下，你为了记住一本教科书上的所有例题，甚至背下了每个标点符号的位置，但面对一道全新的、只是换了几个数字的题目时却无从下手。过拟合的模型就像这个死记硬背的学生，它完美地“复刻”了训练数据中的噪声和偶然性，却丧失了抓住问题本质规律的能力。正则化技术，正是解决这一矛盾的一剂良方，它通过在模型训练的目标函数中引入一个额外的“惩罚项”，来约束模型的复杂度，引导模型去学习更通用、更稳健的规律。

在众多正则化方法中，岭回归（Ridge Regression）和Lasso（Least Absolute Shrinkage and Selection Operator）是两座基石。它们看似只是在惩罚项上从平方（L2范数）换成了绝对值（L1范数），但其背后的数学机理和实际效果却有着天壤之别。岭回归像一个温和的调解者，它通过给所有特征的系数一个轻微的“收缩”，来稳定模型，特别擅长处理那些特征之间高度相关、导致普通最小二乘法解不稳定的“病态”问题。而Lasso则更像一个果断的决策者，它不仅收缩系数，还会将许多不重要的特征系数直接压缩为零，从而实现自动化的特征选择，让模型变得简洁、可解释。

本文将带你深入这两个方法的数学核心。我们将从岭回归的约束与惩罚形式的等价性证明开始，理解正则化如何通过拉格朗日乘子法与KKT条件，将带边界的问题转化为可求解的优化问题。然后，我们将重点剖析Lasso，揭示其产生稀疏解（即许多系数恰好为零）的数学本质，并详细探讨用于求解Lasso的主流优化算法——交替方向乘子法（ADMM）的每一步迭代逻辑。无论你是希望夯实理论基础的数据科学学生，还是正在为高维数据特征选择而头疼的从业者，这篇文章都将为你提供从原理到实操的完整视角。

2. 岭回归：约束与惩罚的等价性及其数学证明

2.1 岭回归的基本形式与问题重构

岭回归最直观的理解，是在普通最小二乘法的损失函数上，增加一个对模型参数β的L2范数平方的惩罚项。假设我们有N个样本，每个样本有d个特征，响应变量为标量y。用矩阵表示，设计矩阵为X（N行d+1列，第一列通常为全1以包含截距项），响应向量为Y。普通最小二乘的目标是最小化残差平方和 ||Y - Xβ||²。

岭回归在此基础上引入惩罚项，其目标函数为：F(β) = ||Y - Xβ||² + λ βᵀΔβ其中，λ ≥ 0是调节惩罚强度的超参数，Δ是一个对称半正定矩阵，通常取单位矩阵I（此时惩罚项为λ||β||²，但不包含截距项β₀），或经过设计的矩阵以对不同特征施加不同惩罚。

然而，岭回归还有另一种等价的表述方式：带约束的优化问题。即，在满足参数β的L2范数平方不超过某个常数C的条件下，最小化残差平方和：最小化||Y - Xβ||²约束条件βᵀΔβ ≤ C

这两种表述——“惩罚形式”和“约束形式”——在数学上是完全等价的。这意味着，对于每一个惩罚系数λ，都存在一个约束边界C，使得两个问题的解完全相同；反之亦然。理解这种等价性，是深入掌握正则化思想的关键。

2.2 从KKT条件到等价性证明

为什么这两种形式是等价的？这需要用到凸优化中的核心工具——KKT（Karush-Kuhn-Tucker）条件。对于约束形式的问题，我们可以构造拉格朗日函数：L(β, μ) = ||Y - Xβ||² + μ (βᵀΔβ - C)其中，μ ≥ 0是拉格朗日乘子。

根据KKT条件，最优解β*必须满足：

平稳性条件：∇β L(β*, μ*) = 0。
原始可行性：βᵀΔβ≤ C。
对偶可行性：μ* ≥ 0。
互补松弛条件：μ* (βᵀΔβ- C) = 0。

让我们聚焦于平稳性条件。对拉格朗日函数求关于β的梯度并令其为零：-2Xᵀ(Y - Xβ*) + 2μ* Δβ* = 0整理后得到：(XᵀX + μ* Δ) β* = XᵀY

这个形式是不是非常眼熟？对比惩罚形式岭回归的解：β_λ = (XᵀX + λ Δ)⁻¹ XᵀY。两者在形式上完全一致，只是将惩罚形式的λ替换成了约束形式的拉格朗日乘子μ*。

互补松弛条件则揭示了λ与C的关系。如果约束是严格的（即βᵀΔβ< C），那么根据互补松弛条件，必须有μ* = 0。此时，约束形式的解退化为普通最小二乘解，对应惩罚形式中的λ = 0。如果约束是活跃的（即βᵀΔβ= C），那么μ* > 0。此时，μ*的值就唯一地由C决定，并且它恰好扮演了惩罚形式中λ的角色。

注意：这里有一个关键的实操细节。在推导中，我们默认Δ是对称正定（或至少半正定）的，以确保(XᵀX + λΔ)可逆，这也是岭回归能解决XᵀX奇异或病态问题的根本原因。在实际应用中，Δ常取为单位矩阵，但也可以根据先验知识进行设计，例如对某些特征施加更强的惩罚。

2.3 等价性的严格数学表述与几何解释

更一般地，我们可以将这个问题抽象为两类优化问题的等价性家族。考虑一个通用的目标函数U(β)（例如残差平方和）和一个惩罚函数φ(β)（例如参数的范数）。

惩罚问题 var(λ)：最小化U(β) + λ φ(β)， λ ≥ 0。
约束问题 var'(C)：最小化U(β)，约束条件为φ(β) ≤ C， C > inf(φ)。

在U和φ满足一定正则性条件（如连续性、凸性，且当β→∞时φ(β)→∞）的前提下，可以证明这两个问题族是等价的。其核心结论是：函数λ ↦ φ(β_λ)是单调不增的，且当λ→∞时，φ(β_λ)趋近于其下确界；而函数λ ↦ U(β_λ)是单调不减的。这意味着，增大惩罚系数λ，等价于收紧约束边界C，迫使模型参数φ(β)变小，但同时会以增加损失U(β)为代价。

从几何视角看，这非常直观。在参数空间中，约束φ(β) ≤ C定义了一个区域（例如，L2球体）。我们的目标是在这个区域内找到一个点，使得它到“理想点”（无约束下的最小二乘解）的“距离”U(β)最小。这个最优解必然落在区域的边界上（如果无约束解在区域外），或者就是无约束解本身（如果它在区域内）。惩罚形式则像是在目标地形U(β)上叠加了一个以原点为中心、陡峭程度由λ控制的山丘λφ(β)。寻找山谷的最低点，这个点同样会受到“山丘”的推挤，向原点方向移动。调整λ和调整C，最终都能让最优解落在参数空间的同一个位置上。

实操心得：理解这种等价性对调参至关重要。在网格搜索寻找最优λ时，你实际上是在探索一簇不同“紧度”的约束边界。一个实用的技巧是，可以先对数据做标准化，然后观察不同λ下系数β的路径图。当所有系数都收缩到接近零时，对应的λ值就近似给出了一个最大的有效C值（βᵀβ ≈ C）。这可以帮助你设定一个合理的参数搜索范围。

3. Lasso回归：稀疏性产生的机理与最优性条件

3.1 Lasso的问题定义与稀疏性诱惑

Lasso将岭回归的L2惩罚项替换为L1惩罚项，其目标函数为：最小化||Y - Xβ||² + λ ||β||₁其中，||β||₁ = Σ|βᵢ|是系数的L1范数，即绝对值之和。这一个小小的改动，带来了革命性的不同：稀疏性。

所谓稀疏解，是指求得的参数向量β中，有相当一部分分量恰好等于零。在机器学习中，这直接对应于特征选择——系数为零的特征被认为是不重要的，可以被模型剔除。这带来了两大好处：

模型可解释性提升：最终模型只包含少数几个特征，更容易让人理解是哪些因素在驱动预测。
预测性能可能提升：通过剔除噪声或不相关的特征，降低了模型过拟合的风险，有时能在测试集上获得更好的表现。

那么，为什么L1惩罚会产生稀疏性，而L2惩罚不会呢？这需要从几何和代数两个角度来理解。

3.2 几何直观：约束区域的“尖角”

让我们回到约束形式的视角。Lasso的约束形式是：在||β||₁ ≤ C的条件下，最小化||Y - Xβ||²。L1范数约束在二维空间中是一个菱形，在高维空间是一个“菱形”的超多面体。这个多面体是有“尖角”的，这些尖角恰好位于坐标轴上，即某些分量为零的位置。

现在，想象残差平方和||Y - Xβ||²的等值线（椭圆）。最优解是椭圆与约束区域首次相切的点。由于L1约束区域有尖角，椭圆很容易首先碰到这些尖角。一旦在尖角处相切，该尖角对应的坐标轴上的分量（即某个βᵢ）自然就是零。相比之下，L2约束（一个圆球）是光滑的，椭圆与圆球相切于非坐标轴点的概率要大得多，因此岭回归的解通常所有分量都不为零。

3.3 代数刻画：次梯度与最优性条件

从代数上，我们需要严谨地推导Lasso解的条件。目标函数G(β) = ||Y - Xβ||² + λ||β||₁在绝对值函数|βᵢ|的零点处不可导，因此需要使用次梯度的概念。

对于函数f(x) = |x|，其在x=0处的次微分∂f(0)是区间[-1, 1]。也就是说，在零点，梯度可以取-1到1之间的任何值。对于Lasso问题，最优解β必须满足0属于目标函数G(β)在β处的次微分。

经过推导（假设数据已中心化，即截距a0已单独处理，且x的每个特征已标准化为单位方差），我们可以得到一组简洁而强大的最优性条件，即KKT条件对于Lasso的特殊形式：

令r = Xᵀ(Y - Xβ)，这是当前残差与每个特征的协方差向量。对于每一个特征i，最优解β*必须满足：

如果|rᵢ| < λ/2，则必有βᵢ* = 0。
如果βᵢ* ≠ 0，则必有rᵢ = sign(βᵢ*) * (λ/2)。

这组条件极其深刻。它告诉我们：

驱动机制：特征i的系数βᵢ是否被激活（非零），取决于该特征与当前残差的协方差rᵢ的绝对值是否足够大，需要超过阈值λ/2。
符号确定：如果被激活，其系数的符号由rᵢ的符号决定。
软阈值：对于激活的特征，其解满足βᵢ* = (XᵢᵀXᵢ)⁻¹ (XᵢᵀY - sign(βᵢ*) * λ/2)。这可以看作是对普通最小二乘解施加了一个“软阈值”操作：将最小二乘解向零收缩，收缩量正比于λ。

注意事项：这里的推导假设特征已标准化（方差为1）。如果未标准化，惩罚项通常写为λ Σ σᵢ |βᵢ|，其中σᵢ是特征i的标准差估计。这相当于对不同的特征施加了不同尺度的惩罚，重要性不变。在实际应用sklearn的Lasso时，如果设置normalize=True（或使用StandardScaler预处理），库内部会自动处理这一点，使得λ对所有特征具有可比性。

3.4 系数路径与LARS算法

由于最优性条件清晰地揭示了系数与λ的关系，我们可以描绘出当λ从无穷大（所有系数为0）变化到0（最小二乘解）时，每个系数βᵢ的变化轨迹，这被称为系数路径。路径是分段线性的：在λ的某些临界点，会有某个特征的协方差|rᵢ|达到阈值λ/2，从而该特征被“激活”进入模型，或其系数穿过零点被“剔除”出模型。在两个临界点之间，所有活跃集（非零系数集合）不变，系数是λ的线性函数。

基于这一观察，诞生了非常高效的**最小角回归（Least Angle Regression, LARS）**算法。LARS算法可以精确地计算出整个系数路径，其计算复杂度与普通最小二乘拟合一次相当。算法从所有系数为零开始，找到与当前残差最相关的特征（即|rᵢ|最大的特征），将该特征加入活跃集，然后沿着“最小角”的方向（即保持当前所有活跃特征与残差的相关性相等并下降的方向）更新系数，直到另一个特征的相关性达到阈值，将其加入活跃集，如此往复，直到所有特征都被加入或满足停止条件。

LARS算法为理解Lasso提供了另一个直观视角：它以一种最均衡的方式，将预测变量的贡献逐步加入到模型中。

4. 求解Lasso：ADMM算法详解与实现

4.1 为什么需要专门的优化算法？

尽管Lasso的最优性条件很清晰，并且有LARS这样的路径算法，但对于超高维数据（特征数d极大），或者在线学习、分布式计算场景，我们通常需要一种迭代算法来求解给定λ下的Lasso问题。这是因为：

LARS路径算法需要计算矩阵的逆，当d很大时（例如d > 10^4），即使只针对活跃集，计算和存储(XᵀX)的逆也可能非常昂贵。
闭式解不存在：与岭回归不同，Lasso没有像(XᵀX + λI)⁻¹XᵀY这样的闭式解，因为L1惩罚项不可导。
问题可分解：Lasso的目标函数是“可分离”的：损失函数||Y - Xβ||²关于β是光滑可导的（但耦合了所有β），而惩罚项λ||β||₁是关于每个βᵢ可分离的、非光滑的。这种结构非常适合一类称为“分裂算子”的算法。

交替方向乘子法（ADMM）正是利用了这一结构，成为求解大规模Lasso问题最流行、最稳健的算法之一。

4.2 ADMM算法框架与Lasso问题重构

ADMM的核心思想是将一个难以直接求解的复杂问题，通过引入辅助变量和拉格朗日乘子，分解成几个更简单的、可并行求解的子问题。

对于Lasso问题：最小化||Y - Xβ||² + λ||γ||₁，我们引入一个约束Dβ - γ = 0。这里，D通常是一个对角矩阵，用于对不同的特征施加不同的惩罚权重（例如D = diag(σ₁, σ₂, ...)）。当D是单位矩阵时，约束就是β = γ。这个重构看似多余，实则巧妙地将原问题中的变量β“复制”成了γ，从而将目标函数中的光滑部分（与β相关）和非光滑部分（与γ相关）分离开。

相应的增广拉格朗日函数为：L_ρ(β, γ, τ) = ||Y - Xβ||² + λ||γ||₁ + (ρ/2) ||Dβ - γ + τ||²其中，τ是对偶变量（拉格朗日乘子缩放后的版本），ρ > 0是一个惩罚参数。

4.3 ADMM迭代步骤的分解与求解

ADMM算法通过交替优化β、γ，并更新对偶变量τ来求解：

β-更新：固定γ和τ，最小化L_ρ关于β的部分。β^(k+1) = argmin_β { ||Y - Xβ||² + (ρ/2) ||Dβ - γ^(k) + τ^(k)||² }这是一个关于β的最小二乘问题，且是光滑的。其解有闭式形式：β^(k+1) = (XᵀX + (ρ/2) DᵀD)⁻¹ [ XᵀY + (ρ/2) Dᵀ(γ^(k) - τ^(k)) ]这里需要求解一个线性系统。当特征维度d很大时，直接求逆不可行，通常使用共轭梯度法（CG）等迭代线性系统求解器。如果X是稀疏的，可以利用其稀疏结构大幅加速。
γ-更新：固定β和τ，最小化L_ρ关于γ的部分。γ^(k+1) = argmin_γ { λ||γ||₁ + (ρ/2) ||Dβ^(k+1) - γ + τ^(k)||² }这个问题的美妙之处在于，由于L1范数是可分离的，这个问题可以按分量独立求解！对于每个分量i，我们需要求解：γ_i^(k+1) = argmin_t { λ|t| + (ρ/2) (v_i - t)² }，其中v_i = D_i β_i^(k+1) + τ_i^(k)这个一元优化问题的解就是著名的软阈值算子（Soft-thresholding operator）：γ_i^(k+1) = S_{λ/ρ}(v_i) = sign(v_i) * max(|v_i| - λ/ρ, 0)这个操作直观明了：如果v_i的绝对值小于阈值λ/ρ，就将其置为零；否则，就将其向零收缩λ/ρ个单位。这一步计算代价极低，且完全可并行。
τ-更新：更新对偶变量。τ^(k+1) = τ^(k) + Dβ^(k+1) - γ^(k+1)这一步是标准的对偶变量更新，用于衡量约束Dβ = γ的违反程度，并在下一次迭代中通过增广拉格朗日项进行修正。

4.4 ADMM的收敛性与参数选择

ADMM算法在很一般的条件下（目标函数是闭的、真凸函数，且增广拉格朗日函数有鞍点）可以保证收敛到全局最优解。对于Lasso问题，由于其强凸性（损失函数部分），收敛速度通常是线性的。

参数ρ的选择对收敛速度有显著影响：

ρ过大：算法会过于强调满足约束Dβ=γ，导致β-子问题占主导，γ的更新（阈值操作）可能很激进，收敛可能变慢。
ρ过小：对约束的惩罚太轻，算法需要更多迭代才能使原问题残差（Dβ-γ）变小。一个常见的启发式方法是选择ρ = 1作为起点，或者根据问题数据动态调整ρ（如根据原问题残差和对偶残差的比例进行调整）。

停止准则通常基于原问题残差r^(k) = Dβ^(k) - γ^(k)和对偶残差s^(k) = ρ D(γ^(k) - γ^(k-1))的范数。当两者都小于设定的绝对容忍度与相对容忍度组合的阈值时，算法停止。

实操心得与常见陷阱：
特征标准化：在应用ADMM（或任何Lasso求解器）前，务必对特征进行标准化（均值为0，方差为1）。否则，L1惩罚对不同尺度的特征不公平，大数值特征天然承受更重的惩罚，这通常不是我们想要的。标准化后，λ对所有特征的意义才一致。
截距项的处理：截距项β₀通常不应被惩罚。在ADMM的公式中，这可以通过让矩阵D中对应截距项的对角线元素为0来实现，这样在γ-更新中，截距项就不会被阈值化。
内存与计算：对于超大规模问题，即使使用ADMM，β-更新步骤中的(XᵀX + (ρ/2)DᵀD)矩阵求逆或线性系统求解也可能是瓶颈。此时，可以考虑使用随机梯度下降的变种（如FISTA，快速迭代收缩阈值算法），它不需要求解线性系统，每次迭代只计算梯度并进行软阈值操作，更适合海量数据。
λ的选择：ADMM求解的是固定λ的问题。在实际中，我们需要通过交叉验证来选择最优的λ。一个高效的策略是使用“正则化路径”算法（如LARS或坐标下降法）先计算出一系列λ下的解，然后用交叉验证评估，最后再用ADMM精细求解最优λ附近的几个点。

5. 超越岭回归与Lasso：相关方法与应用考量

5.1 Elastic Net：结合L1与L2的优势

在实践中，我们常常面临这样的困境：Lasso在特征选择上非常出色，但当特征高度相关时，它倾向于随机地从一组相关特征中只选一个，这不太稳定。岭回归能处理共线性，但不会产生稀疏解。

弹性网络（Elastic Net）应运而生，它结合了L1和L2惩罚：最小化||Y - Xβ||² + λ₁||β||₁ + λ₂||β||²其等价约束形式为：||Y - Xβ||²，约束条件(1-α)||β||₁ + α||β||² ≤ C，其中α∈[0,1]控制混合比例。

Elastic Net同时获得了Lasso的稀疏性和岭回归的群体效应（grouping effect），即高度相关的特征倾向于被同时选中或同时排除，且系数值相近。其求解算法可以看作是Lasso算法（如坐标下降、ADMM）的自然扩展，只需在更新规则中同时考虑L1和L2项的影响。

5.2 从次梯度到近端梯度：更广阔的优化视角

Lasso的求解将我们引向了非光滑优化的领域。次梯度下降是处理不可导目标函数最直接的方法，但它的收敛速度很慢（O(1/√k)）。

近端梯度下降（Proximal Gradient Descent）提供了更快的框架。对于形如F(β) = f(β) + g(β)的目标函数，其中f光滑可导（如最小二乘损失），g非光滑但“简单”（如L1范数，其近端算子就是软阈值），近端梯度法的迭代步骤为：β^(k+1) = prox_{ηg}(β^(k) - η ∇f(β^(k)))其中，prox_{ηg}(v)是函数g的近端算子，对于L1范数，prox_{ηλ||·||₁}(v) = S_{ηλ}(v)，即软阈值算子。

FISTA（Fast Iterative Shrinkage-Thresholding Algorithm）是近端梯度法的一个加速版本，通过引入动量项，将收敛速度提升到O(1/k²)，在实践中应用非常广泛。许多高效的Lasso求解库（如scikit-learn中的坐标下降法底层也借鉴了类似思想）都基于这些算法。

5.3 模型选择与超参数调优实战

理解了算法，最终要落地到应用。如何为岭回归或Lasso选择正则化强度λ？

信息准则（AIC/BIC）：在训练集上拟合不同λ的模型，计算AIC或BIC，选择值最小的模型。这种方法计算快，但依赖于大样本渐近理论，在有限样本下可能不准。
交叉验证（Cross-Validation）：这是金标准。最常用的是K折交叉验证。
- 将数据随机分成K份。
- 依次将每一份作为验证集，其余K-1份作为训练集，用训练集拟合模型，在验证集上计算误差（如均方误差MSE）。
- 对每个λ，计算K次验证误差的平均值。
- 选择平均验证误差最小的λ。
- 为了更稳定，可以对每个λ进行多次不同的数据划分（重复交叉验证），取误差的平均。
正则化路径与交叉验证：对于Lasso，利用LARS或坐标下降法可以高效计算出一整条系数路径（对应一系列λ）。然后，在这条路径上，对每个λ（或等间隔采样）进行交叉验证，可以快速找到最优λ。

常见问题排查：
问题：交叉验证曲线非常平坦，找不到明显的最优点。排查：这可能意味着正则化的效果不明显，或者数据中的信号很强，过拟合风险小。可以尝试扩大λ的搜索范围（例如从1e-5到1e5对数均匀采样），或者检查特征工程是否充分，也许模型本身能力不足。
问题：Lasso选出的特征数量远少于预期，甚至为零。排查：λ可能设置得过大。检查λ的搜索范围，确保包含了较小的值。另外，检查特征尺度，确保已标准化。如果响应变量和特征之间的线性关系很弱，Lasso也可能无法选出有效特征。
问题：模型在训练集上表现很好，但在测试集上很差。排查：这是典型的过拟合。首先，确保你是在用交叉验证选择λ，而不是在训练集上选择。其次，检查是否使用了测试集参与任何模型选择或参数调整过程（数据泄露）。最后，考虑是否模型复杂度仍然太高，可以尝试更强的正则化（增大λ），或者使用Elastic Net。
问题：ADMM算法收敛很慢。排查：调整惩罚参数ρ。可以尝试一个更激进的更新策略，如根据原残差和对偶残差的比例每若干迭代调整一次ρ。此外，检查β-更新步骤的线性系统求解是否准确，不准确的求解会拖慢整体收敛。对于超大问题，考虑使用更简单的求解器（如坐标下降）或随机优化方法。

从岭回归的稳定解，到Lasso的稀疏性与自动特征选择，再到ADMM、近端梯度等现代优化算法的精妙分解，正则化技术为我们提供了控制模型复杂度、提升泛化能力的强大工具箱。理解其背后的数学原理，不仅能帮助我们在实践中正确调参、解读结果，更能让我们在遇到新问题时，有能力去调整甚至创造新的正则化形式。在实际项目中，我通常会从简单的岭回归或Lasso开始建立基线，通过交叉验证观察模型表现和特征重要性，再决定是否需要引入更复杂的结构（如分组Lasso、图拉普拉斯惩罚等）。记住，没有免费的午餐，任何正则化都是一种引入偏差来减少方差的权衡，而找到那个最佳的权衡点，正是机器学习的艺术所在。

查看全文

http://www.jsqmd.com/news/879324/