当前位置：首页 > news >正文

从多项式回归到“水平直线”：Matplotlib 绘图中的 NumPy 数组维度隐患

news 2026/6/30 1:56:32

在机器学习练手时，我们经常会遇到“代码逻辑一模一样，但运行结果却大相径庭”的诡异情况。最近在复现一个简单的二次多项式回归（y = 0.5x² + x + 2 + 噪声）时，我就遇到了这个让人挠头的现象：

写法 A：画出了一条完全违背数学规律的水平直线。
写法 B：完美展示了优美的抛物线拟合曲线。

明明都是利用np.hstack([x, x**2])构造了二次项特征，为什么要呈现的结果天差地别？今天我们就来深挖一下这背后的NumPy 数组维度陷阱。

一、背景复现：两个几乎一样的函数

❌ 错误示范（画出了水平直线）

# 这里的 X 覆盖了原始变量 x = np.random.uniform(-3., 3., 100) y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100) x = x.reshape(-1, 1) # 【隐患点】：直接覆盖了原始变量 x x2 = np.hstack([x, x**2]) model = LinearRegression() model.fit(x2, y) y_predict = model.predict(x2) # 画图 plt.scatter(x, y) plt.plot(np.sort(x), y_predict[np.argsort(x)], color="r") # 【翻车点】 plt.show()

✅ 正确示范（正常显示了抛物线）

x = np.random.uniform(-3, 3, size=100) y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, size=100) estimator = LinearRegression() X = x.reshape(-1, 1) # 【安全点】：不覆盖，用新变量 X X2 = np.hstack([X, X ** 2]) estimator.fit(X2, y) y_predict = estimator.predict(X2) # 画图 plt.scatter(x, y) plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r') # 【正常】 plt.show()

很多人第一反应是：是不是生成y的时候，x被提前变成了二维数组，触发了广播机制（Broadcasting）导致y变成了矩阵？

其实不是的。根据我们调试时的打印结果，两个函数在模型训练前的矩阵形状完全一致：

x的形状：(100, 1)
y的形状：(100,)
x2的形状：(100, 2)

数学上的拟合没有任何问题，真正的杀手，藏在最后的画图代码中。

二、罪魁祸首：NumPy 的“高级索引”与 Matplotlib 的维度错乱

让我们聚焦在画图的那行核心代码：

plt.plot(np.sort(x), y_predict[np.argsort(x)], color="r")

这行代码本意是：将x从小到大排序，并取出对应位置的预测值，画出一条平滑的折线图。

这个逻辑在x是一维数组（shape=(100,)）时完美无缺，但是，当x是二维数组（shape=(100, 1)）时，灾难发生了：

二维数组的排序：np.sort(x)对二维数组排序，返回的结果依然是二维数组(100, 1)。
二维数组的求索引：np.argsort(x)同样返回一个二维索引数组(100, 1)。
触发 NumPy 高级索引：当我们用二维索引数组np.argsort(x)去提取一维数组y_predict的值时，触发了 NumPy 的高级索引（Advanced Indexing）规则。这导致提取出来的y_predict数据不仅维度变成了二维(100, 1)，而且内部的排列顺序是极度错乱的。

当plt.plot()接收到混乱的二维x和错位的二维y时，Matplotlib 无法正确渲染出曲线。在底层渲染机制的作用下，它最终呈现出了那条令人生疑的水平直线。

三、终极解法与最佳实践

既然破案了，我们该如何在代码中彻底杜绝此类问题呢？这里有两套解决方案：

方案一：画图前将`x`强制展平（一维化）

就像我们在实际调试时验证的那样，强制断开二维数组的复杂索引行为。

# 将二维数组强制拉平为一维 x_flat = x.flatten() # 获取排序后的一维索引 sorted_idx = np.argsort(x_flat) plt.scatter(x, y) # 使用一维数据画图 plt.plot(x_flat[sorted_idx], y_predict[sorted_idx], color="r")

方案二：“训练用矩阵，绘图用向量”（强烈推荐）

在数据预处理阶段，永远不要覆盖原始的x变量。把它赋给一个新的变量用于训练，让原始的x始终保留一维状态，供后续可视化使用。

# 1. 数据生成，保持纯净的一维数组 x = np.random.uniform(-3, 3, 100) y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, 100) # 2. 模型训练，重新申请新变量 X（二维） X = x.reshape(-1, 1) X2 = np.hstack([X, X**2]) model.fit(X2, y) y_predict = model.predict(X2) # 3. 数据可视化，直接用原始的一维 x sorted_idx = np.argsort(x) # x 是一维，此时 argsort 返回一维 plt.scatter(x, y) plt.plot(x[sorted_idx], y_predict[sorted_idx], color='r') plt.show()

一个看似简单的“水平直线” Bug，实则暴露出 NumPy 数组维度和数据对齐的重要性。在数据科学和机器学习的日常开发中，请务必牢记这条黄金法则：