当前位置：首页 > news >正文

岭回归（Ridge Regression）辨析

news 2026/7/8 19:32:14

岭回归（Ridge Regression）完整辨析

岭回归是线性回归最经典、最稳健的正则化变体，几乎是2026年所有高维、共线性、特征工程不彻底场景下的“默认备选”模型。下面从原理 → 公式 → 与其他模型对比 → 使用场景 → 优缺点 → 常见误区，一次性讲透。

1. 核心思想一句话总结

用可控的“偏差”（bias）换取大幅下降的“方差”（variance），从而得到更稳定的泛化性能。

普通最小二乘（OLS）追求无偏，但当：

特征之间存在多重共线性（multicollinearity）
特征维度 ≥ 样本量（p ≥ n）
某些特征系数天然很大（数值尺度差异、病态数据）

OLS 的系数会剧烈波动甚至符号翻转，预测极不稳定。

岭回归通过在损失函数里强行惩罚系数的大小（L2范数平方），把系数往0“挤”，牺牲一点拟合度，换来系数稳定、方差大幅下降。

2. 数学公式（最重要三行）

目标函数（损失函数）：

J ( w ) = 1 2 n ∑ i = 1 n ( y i − y ^ i ) 2 + λ 2 ∥ w ∥ 2 2 J(\mathbf{w}) = \frac{1}{2n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \frac{\lambda}{2} \|\mathbf{w}\|_2^2J(w)=2n1i=1∑n(yi−y^i)2+2λ∥w∥22

或写成矩阵形式（最常用）：

J ( w ) = 1 2 ( y − X w ) T ( y − X w ) + λ 2 w T w J(\mathbf{w}) = \frac{1}{2} (\mathbf{y} - \mathbf{Xw})^T (\mathbf{y} - \mathbf{Xw}) + \frac{\lambda}{2} \mathbf{w}^T \mathbf{w}J(w)=21(y−Xw)T(y−Xw)+2λwTw

闭式解（最核心公式，面试/手写必考）：

w ^ r i d g e = ( X T X + λ I ) − 1 X T y \hat{\mathbf{w}}_{ridge} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}w^ridge=(XTX+λI)−1XTy

对比普通最小二乘：

w ^ o l s = ( X T X ) − 1 X T y \hat{\mathbf{w}}_{ols} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}w^ols=(XTX)−1XTy

关键区别就在于分母多了一个 λI，这让矩阵永远可逆（即使 X^T X 奇异或接近奇异）。

3. 岭回归 vs Lasso vs Elastic Net vs OLS 对比表（2026年最实用版）

特性	OLS (普通线性回归)	Ridge (岭回归)	Lasso (L1)	Elastic Net
正则化项	无	λ/2 ⋅ Σ wⱼ² (L2)	λ ⋅ Σ	wⱼ
能否把系数压到精确0	不能	不能（只能接近0）	能（产生稀疏解）	能（但比Lasso弱）
特征选择能力	无	弱	强	中等
共线性处理能力	很差（系数爆炸、符号翻转）	优秀	好，但不稳定	最稳（尤其高相关组）
当特征高度相关时	随机选一个，系数剧烈波动	把相关特征系数平摊	随机挑一个，其余压0	倾向把相关组一起保留或压缩
Bias ↑ / Variance ↓	Bias最低，Variance最高	Bias↑，Variance大幅↓	Bias更高，Variance↓	可调（介于两者之间）
几何解释（等高线图）	—	圆形约束 → 很少压到轴上	菱形约束 → 容易压到坐标轴	介于圆与菱形之间
scikit-learn 类名	LinearRegression	Ridge / RidgeCV	Lasso / LassoCV	ElasticNet / ElasticNetCV
典型超参	—	α (即 λ)	α (即 λ)	α (总强度) + l1_ratio
2026年使用频率排序	教学/简单场景	最高（稳）	中等（需特征选择时）	越来越高（综合最稳）