当前位置：首页 > news >正文

别再死记硬背L1、L2范数了！用Python可视化带你理解正则化如何‘惩罚’模型

news 2026/7/15 10:46:58

用Python可视化揭开L1/L2正则化的神秘面纱：从几何直觉到代码实现

在机器学习的世界里，正则化就像一位隐形的调音师，默默调整着模型的复杂度。许多初学者第一次见到损失函数中突然加入的λ||w||项时，往往会感到困惑——这些数学符号究竟如何影响模型的？本文将通过Python代码和可视化手段，带你直观理解L1和L2正则化如何"塑造"模型参数。

1. 范数：测量向量空间的尺子

理解正则化的第一步是掌握范数这一数学概念。简单来说，范数是衡量向量"大小"的一种方式。在机器学习中，我们最常用的是L1和L2范数：

import numpy as np def l1_norm(x): return np.sum(np.abs(x)) def l2_norm(x): return np.sqrt(np.sum(x**2)) # 示例向量 v = np.array([3, -4]) print(f"L1范数: {l1_norm(v)}") # 输出7 print(f"L2范数: {l2_norm(v)}") # 输出5

表：常见范数对比

范数类型	数学表达式	几何形状	主要特性
L0	‖x‖₀ = #{i: xᵢ≠0}	离散点	非凸，难以优化
L1	‖x‖₁ = Σ	xᵢ
L2	‖x‖₂ = √(Σxᵢ²)	圆形(二维)	平滑解

提示：虽然L0范数能精确衡量稀疏性，但由于其非凸性质，实际中常用L1作为替代。

2. 正则化的几何直观：约束空间的可视化

让我们用Matplotlib绘制不同范数的等高线图，这是理解正则化如何工作的关键：

import matplotlib.pyplot as plt from matplotlib.patches import Circle, Rectangle fig, ax = plt.subplots(figsize=(10, 5)) # L1范数单位球(菱形) ax.add_patch(plt.Polygon([(1,0),(0,1),(-1,0),(0,-1)], alpha=0.3, color='red', label='L1范数')) # L2范数单位圆 ax.add_patch(plt.Circle((0,0), 1, alpha=0.3, color='blue', label='L2范数')) ax.set_xlim(-1.5, 1.5) ax.set_ylim(-1.5, 1.5) ax.axhline(0, color='black', linewidth=0.5) ax.axvline(0, color='black', linewidth=0.5) ax.set_aspect('equal') ax.legend() plt.title('L1和L2范数单位球对比') plt.show()

这段代码生成的图像会清晰展示：

红色菱形：L1范数的单位球，在顶点处与坐标轴相交
蓝色圆形：L2范数的单位球，处处平滑

当我们将这些约束条件与模型的解空间结合时，就能直观看到正则化如何引导参数选择。

3. 正则化如何"惩罚"模型：以线性回归为例

考虑简单的线性回归问题，我们最小化以下损失函数：

# 普通最小二乘法 def ols_loss(w, X, y): return np.sum((X @ w - y)**2) # L2正则化(Ridge回归) def ridge_loss(w, X, y, alpha): return ols_loss(w, X, y) + alpha * l2_norm(w)**2 # L1正则化(Lasso回归) def lasso_loss(w, X, y, alpha): return ols_loss(w, X, y) + alpha * l1_norm(w)

为了可视化正则化的效果，我们可以创建一个二维参数空间的等高线图：

def plot_contours(X, y, true_w): # 创建参数网格 w1 = np.linspace(-2, 2, 100) w2 = np.linspace(-2, 2, 100) W1, W2 = np.meshgrid(w1, w2) # 计算各点损失值 Z_ols = np.zeros_like(W1) Z_l1 = np.zeros_like(W1) Z_l2 = np.zeros_like(W1) for i in range(len(w1)): for j in range(len(w2)): w = np.array([W1[i,j], W2[i,j]]) Z_ols[i,j] = ols_loss(w, X, y) Z_l1[i,j] = lasso_loss(w, X, y, alpha=0.5) Z_l2[i,j] = ridge_loss(w, X, y, alpha=0.5) # 绘制等高线 plt.figure(figsize=(15,5)) plt.subplot(131) plt.contour(W1, W2, Z_ols, levels=20) plt.scatter(*true_w, c='red', label='真实参数') plt.title('普通最小二乘') plt.subplot(132) plt.contour(W1, W2, Z_l1, levels=20) plt.scatter(*true_w, c='red') plt.title('L1正则化(Lasso)') plt.subplot(133) plt.contour(W1, W2, Z_l2, levels=20) plt.scatter(*true_w, c='red') plt.title('L2正则化(Ridge)') plt.tight_layout() plt.show()

4. 为什么L1导致稀疏而L2不会？

这个问题的答案就藏在它们的几何形状中。当最优解位于约束区域的顶点时（L1菱形的情况），某些参数会恰好变为0，这就是稀疏性的来源。

我们可以通过一个简单的实验来验证：

from sklearn.linear_model import Lasso, Ridge # 创建高维稀疏数据 np.random.seed(42) X = np.random.randn(50, 10) # 50样本，10特征 true_w = np.array([1.5, -2, 0, 0, 0, 0.8, 0, 0, 0.3, 0]) # 稀疏的真实参数 y = X @ true_w + 0.1 * np.random.randn(50) # 拟合模型 lasso = Lasso(alpha=0.1).fit(X, y) ridge = Ridge(alpha=0.1).fit(X, y) # 比较参数 print("真实参数:", true_w) print("Lasso估计:", np.round(lasso.coef_, 2)) print("Ridge估计:", np.round(ridge.coef_, 2))

输出结果将显示：

Lasso确实能将不重要的特征权重收缩到0
Ridge虽然缩小了所有参数，但很少完全归零

5. 正则化实战：如何选择合适的λ值

正则化强度λ的选择至关重要。太小的λ可能无法有效防止过拟合，太大的λ则会导致模型欠拟合。我们可以通过正则化路径来观察参数随λ变化的情况：

from sklearn.linear_model import lasso_path # 计算Lasso路径 alphas, coefs, _ = lasso_path(X, y, alphas=np.logspace(-3, 0, 50)) # 绘制正则化路径 plt.figure(figsize=(10,6)) for i in range(coefs.shape[0]): plt.plot(alphas, coefs[i], label=f'w{i+1}') plt.xscale('log') plt.xlabel('λ (正则化强度)') plt.ylabel('系数值') plt.title('Lasso正则化路径') plt.legend() plt.show()

在实际项目中，我们通常通过交叉验证来选择最优的λ值：

from sklearn.linear_model import LassoCV # 自动选择最佳alpha lasso_cv = LassoCV(alphas=np.logspace(-3, 0, 50), cv=5).fit(X, y) print(f"最优正则化强度: {lasso_cv.alpha_:.4f}")

理解正则化不仅需要数学公式，更需要这种可视化的直观感受。当你在代码中看到那些参数被"推向"坐标轴或均匀收缩时，正则化的概念就变得鲜活起来。

查看全文

http://www.jsqmd.com/news/897307/