当前位置：首页 > news >正文

手推最小二乘法：从散点图到回归公式的完整推导

news 2026/6/17 5:39:13

1. 这不是公式默写，而是亲手推导出那条直线——从散点图到数学直觉的完整旅程

你有没有盯着一张散点图发过呆？那些密密麻麻的点，像一群没有队形的鸟，看似杂乱无章，却总在暗示某种秩序。线性回归要做的，就是从这片混沌里，亲手拉出一根最“诚实”的直线——它不强行穿过每一个点，也不随意摆弄姿态，而是用数学的尺子，量出所有点到它的平均距离最短的那一条。这根线，就是我们常说的回归线，而它的斜率和截距，不是凭感觉画出来的，是被最小二乘法这个“数学裁判”严格裁定出来的。我第一次真正理解它，不是在课本上看到那个漂亮的 y = ax + b 公式，而是在 Excel 里手动拖动一条线，看着下方的“误差平方和”数字不断跳动、变小、再变小，直到它停在一个再也无法降低的谷底——那一刻，公式活了。这篇文章，就是带你重走一遍这条从视觉直觉到代数推导、再到数值验证的完整路径。它不假设你精通微积分，但要求你愿意拿起笔，在草稿纸上跟着算几步；它不回避求导和偏导这些词，但会告诉你为什么非得用它们，而不是别的工具；它更不会只给你一个黑箱函数，调用完就结束。如果你正被“为什么截距 a 的公式长那样？”、“为什么非得用平方而不是绝对值？”、“手算三个点就能验证公式吗？”这类问题卡住，那你来对地方了。这是一份给实践者的推导笔记，不是给考试者的速记口诀。

2. 核心思路拆解：为什么是“最小二乘”，而不是“最小距离”或“最小绝对值”？

2.1 目标函数的诞生：我们到底在“最小化”什么？

线性回归的终极目标，是找到一条直线 y = ax + b，让它能最好地“代表”我们手头的所有数据点 (xᵢ, yᵢ)。这里的“最好”，必须量化。一个最朴素的想法是：让每个点到直线的垂直距离之和最小。这听起来很公平，对吧？但数学上，点到直线的垂直距离公式是 |axᵢ + b - yᵢ| / √(a² + 1)，分母里带着 a，这会让整个优化问题变得极其复杂，求导后方程非线性，没有解析解。我们想要的是一个能“一锤定音”算出 a 和 b 的公式，而不是一个需要反复试错的数值游戏。所以，我们必须简化这个距离的定义。

于是，统计学家们做了一个关键且精妙的妥协：他们不看真正的几何垂直距离，而是看纵轴方向上的偏差，也就是 yᵢ - (axᵢ + b)。这个值叫“残差”（residual），它代表了模型预测值 (axᵢ + b) 和真实观测值 yᵢ 之间的差距。这个选择有坚实的现实基础：在绝大多数应用场景中，x 是我们能精确控制或测量的自变量（比如实验中的温度、投入的广告费），而 y 是我们试图预测的因变量（比如反应速率、销售额），其测量本身就带有随机误差。因此，我们默认 x 是“干净”的，所有不确定性都集中在 y 上。所以，衡量拟合好坏，自然就聚焦在 y 方向的误差上。

提示：这个“纵轴偏差”的假设，是线性回归模型成立的基石之一。如果 x 本身也存在巨大测量误差，那么普通最小二乘法（OLS）就不再是最优选择，你需要转向“主成分回归”或“误差变量模型”（Errors-in-Variables Model），那是另一个故事了。

2.2 为什么是“平方”，而不是“绝对值”或“四次方”？

有了残差 eᵢ = yᵢ - (axᵢ + b)，下一步就是把所有 eᵢ “加起来”。但直接相加不行，因为正负残差会相互抵消。比如一个点高估了 5，另一个点低估了 5，总和是 0，但这显然不代表拟合得好。所以我们需要一个能放大误差、且永远为正的度量。

第一个想到的可能是绝对值：∑|eᵢ|。这确实能避免正负抵消，而且计算直观。但它有一个致命的数学缺陷：绝对值函数在 eᵢ = 0 处不可导。这意味着，当我们想用微积分这个最强大的优化武器去寻找最优的 a 和 b 时，会在残差为零的点上“卡壳”，找不到一个平滑的下降路径。整个优化过程会变得笨拙，需要借助更复杂的算法（如线性规划），失去了我们追求“解析解”的初衷。

而平方和 ∑eᵢ² 就完美避开了这个问题。函数 f(e) = e² 在整个实数域上都是光滑可导的，它的导数是 2e，清晰明了。更重要的是，平方操作天然地惩罚大误差。一个 10 的误差，其平方是 100；而两个 5 的误差，其平方和是 25 + 25 = 50。这符合我们的直觉：一个巨大的错误，比几个中等错误更不可接受。它迫使模型去“照顾”那些离群的点，让整体的拟合更加稳健（虽然有时也会被异常值带偏，这是它的另一面）。

至于四次方 ∑eᵢ⁴，它惩罚大误差的力度更强，但同样会带来计算复杂度的上升，并且对异常值过于敏感，反而可能牺牲掉大部分数据点的拟合精度。平方，是在数学优雅性、计算可行性和实际解释性之间，找到的一个近乎完美的平衡点。

2.3 最小二乘法的几何本质：在高维空间里找一个“投影”

如果你熟悉线性代数，最小二乘法还有一个极其优美的几何解释。我们可以把所有的观测值 y 看作一个 n 维向量y= [y₁, y₂, ..., yₙ]ᵀ。而所有可能的预测值 (axᵢ + b) 的集合，则构成了一个由两个向量张成的二维平面：一个是全 1 向量1= [1, 1, ..., 1]ᵀ（对应截距 b），另一个是特征向量x= [x₁, x₂, ..., xₙ]ᵀ（对应斜率 a）。任何一条直线的预测结果，都可以表示为这个平面上的一个向量：ŷ= ax+ b1。

那么，寻找最优的 a 和 b，就等价于在这个二维平面上，找到一个向量ŷ，使得它与真实向量y之间的欧氏距离 ||y-ŷ|| 最小。而在线性代数中，一个向量到一个子空间的最短距离，就是该向量在这个子空间上的正交投影。也就是说，最优的ŷ必须满足 (y-ŷ) ⊥ 平面，即 (y-ŷ) 与平面内的任意向量都正交。特别地，它必须与1和x都正交：

(y- ax- b1) ·1= 0
(y- ax- b1) ·x= 0

展开这两个点积，得到的正是我们后面将要推导的正规方程组。这个视角彻底揭示了最小二乘法的本质：它不是在瞎猜，而是在一个由数据定义的几何空间里，进行一次精准的“影子投射”。我第一次在黑板上画出这个三维示意图时，才真正感受到数学的震撼力——那些抽象的公式，原来都有如此具象的空间意义。

3. 核心细节解析与实操要点：从定义到公式的每一步推导

3.1 定义损失函数并写出其显式表达式

让我们把上面的思路，变成一个可以动手计算的数学对象。我们定义损失函数（Loss Function）或目标函数（Objective Function）J(a, b) 为所有残差的平方和：

J(a, b) = ∑ᵢ₌₁ⁿ eᵢ² = ∑ᵢ₌₁ⁿ [yᵢ - (axᵢ + b)]²

这里，i 从 1 到 n，代表我们有 n 个数据点。我们的目标，就是找到使 J(a, b) 取得最小值的 a 和 b。

为了推导方便，我们先把括号里的平方展开：

[yᵢ - (axᵢ + b)]² = yᵢ² - 2yᵢ(axᵢ + b) + (axᵢ + b)²
= yᵢ² - 2ayᵢxᵢ - 2byᵢ + a²xᵢ² + 2abxᵢ + b²

现在，对 i 求和。注意，a 和 b 是我们要找的常数，而 xᵢ 和 yᵢ 是已知的数据。所以，我们可以把求和符号分配进去：

J(a, b) = ∑yᵢ² - 2a∑yᵢxᵢ - 2b∑yᵢ + a²∑xᵢ² + 2ab∑xᵢ + nb²

这里，∑ 表示对 i 从 1 到 n 求和。我们引入一些简写符号，让公式更清爽：

Sₓₓ = ∑xᵢ² （x 的平方和）
Sₓᵧ = ∑xᵢyᵢ （x 与 y 的交叉和）
Sᵧ = ∑yᵢ （y 的和）
Sₓ = ∑xᵢ （x 的和）
Sᵧᵧ = ∑yᵢ² （y 的平方和）

那么，损失函数就变成了：

J(a, b) = Sᵧᵧ - 2aSₓᵧ - 2bSᵧ + a²Sₓₓ + 2abSₓ + nb²

这是一个关于两个变量 a 和 b 的二次函数。它的图像是一个开口向上的“抛物面”，其最低点就是我们要找的全局最优解。

3.2 利用微积分求极值：对 a 和 b 分别求偏导并令其为零

对于一个可导的多元函数，其极值点必然满足所有一阶偏导数为零。这就是我们求解的关键。

首先，对 a 求偏导 ∂J/∂a。把 b 当作常数，对 a 求导：

∂J/∂a = -2Sₓᵧ + 2aSₓₓ + 2bSₓ

令其等于零：

-2Sₓᵧ + 2aSₓₓ + 2bSₓ = 0
=> aSₓₓ + bSₓ = Sₓᵧ …… (方程1)

接着，对 b 求偏导 ∂J/∂b。把 a 当作常数，对 b 求导：

∂J/∂b = -2Sᵧ + 2aSₓ + 2nb

令其等于零：

-2Sᵧ + 2aSₓ + 2nb = 0
=> aSₓ + bn = Sᵧ …… (方程2)

恭喜你，我们得到了著名的正规方程组（Normal Equations）。它是一个包含两个未知数 a 和 b 的二元一次方程组。只要 Sₓₓ 和 n 不为零（这在实际数据中几乎总是成立的），这个方程组就有唯一解。

3.3 解方程组：推导出斜率 a 和截距 b 的最终公式

现在，我们来亲手解这个方程组。从方程2出发，我们可以很容易地解出 b：

aSₓ + bn = Sᵧ
=> bn = Sᵧ - aSₓ
=> b = (Sᵧ - aSₓ) / n
=> b = ȳ - a x̄

其中，ȳ = Sᵧ / n 是 y 的均值，x̄ = Sₓ / n 是 x 的均值。这个形式非常优美，它告诉我们：最优的回归直线，必然经过点 (x̄, ȳ)，即数据的“重心”。这是一个非常重要的几何性质，也是我们后续验证计算是否正确的快速方法。

现在，把 b = ȳ - a x̄ 代入方程1：

aSₓₓ + (ȳ - a x̄) Sₓ = Sₓᵧ
=> aSₓₓ + ȳSₓ - a x̄ Sₓ = Sₓᵧ
=> a(Sₓₓ - x̄ Sₓ) = Sₓᵧ - ȳSₓ

注意到 Sₓ = n x̄，所以 x̄ Sₓ = n x̄²。而 Sₓₓ - n x̄² 正是 x 的离差平方和（Sum of Squares for X），通常记作 SSₓ。同理，Sₓᵧ - ȳSₓ = Sₓᵧ - n x̄ ȳ，这是 x 与 y 的离差交叉和（Sum of Cross Products），记作 SPₓᵧ。

所以，我们得到：

a = SPₓᵧ / SSₓ

展开写出来就是：

a = (∑(xᵢ - x̄)(yᵢ - ȳ)) / (∑(xᵢ - x̄)²)

这就是斜率 a 的标准公式。它清晰地表明，a 是 y 关于 x 的“协变”程度（分子）与 x 自身的“变异”程度（分母）的比值。

最后，把 a 代回 b = ȳ - a x̄，就得到了截距 b 的公式：

b = ȳ - a x̄

3.4 手动验算：用三个点，见证公式的诞生

理论再好，不如亲手算一遍。我们取一个最简单的例子：三个点 (1, 1), (2, 2), (3, 2)。

第一步：计算均值。 x̄ = (1 + 2 + 3) / 3 = 2
ȳ = (1 + 2 + 2) / 3 = 5/3 ≈ 1.6667

第二步：计算离差平方和 SSₓ。 (1-2)² + (2-2)² + (3-2)² = 1 + 0 + 1 = 2

第三步：计算离差交叉和 SPₓᵧ。 (1-2)(1-5/3) + (2-2)(2-5/3) + (3-2)(2-5/3)
= (-1)(-2/3) + (0)(1/3) + (1)(1/3)
= 2/3 + 0 + 1/3 = 1

第四步：计算斜率 a。 a = SPₓᵧ / SSₓ = 1 / 2 = 0.5

第五步：计算截距 b。 b = ȳ - a x̄ = 5/3 - 0.5 * 2 = 5/3 - 1 = 2/3 ≈ 0.6667

所以，回归直线是 y = 0.5x + 0.6667。

现在，我们来验证一下。把三个 x 值代入：

x=1: y=0.5*1 + 0.6667 = 1.1667，残差 = 1 - 1.1667 = -0.1667
x=2: y=0.5*2 + 0.6667 = 1.6667，残差 = 2 - 1.6667 = 0.3333
x=3: y=0.5*3 + 0.6667 = 2.1667，残差 = 2 - 2.1667 = -0.1667

平方和 = (-0.1667)² + (0.3333)² + (-0.1667)² ≈ 0.0278 + 0.1111 + 0.0278 = 0.1667

如果我们随便选一条线，比如 y = x，它的平方和是 (0)² + (0)² + (-1)² = 1，远大于 0.1667。这证明了我们的公式确实找到了一个更优的解。这个手动验算的过程，是建立数学直觉最有效的方式。我建议你拿出纸笔，用自己手头的一组小数据，重复一遍，你会对公式产生一种前所未有的信任感。

4. 实操过程与核心环节实现：从纸面公式到代码落地的完整闭环

4.1 Python 实现：从零开始，不依赖任何机器学习库

理解了公式，下一步就是把它变成可运行的代码。下面是一个完全“裸写”的 Python 函数，它只依赖numpy进行基础的数组运算，没有任何sklearn或statsmodels的调用。这能让你看清每一行代码背后对应的数学步骤。

import numpy as np def linear_regression_manual(x, y): """ 手动实现线性回归，返回斜率a和截距b Parameters: x (array-like): 自变量，一维数组 y (array-like): 因变量，一维数组 Returns: tuple: (a, b) 斜率和截距 """ # 转换为numpy数组，确保可以进行向量化运算 x = np.array(x) y = np.array(y) # 1. 计算均值 x_mean = np.mean(x) y_mean = np.mean(y) # 2. 计算离差交叉和 SP_xy = sum((x_i - x_mean) * (y_i - y_mean)) # 使用numpy的向量化操作，避免显式循环，效率更高 sp_xy = np.sum((x - x_mean) * (y - y_mean)) # 3. 计算离差平方和 SS_x = sum((x_i - x_mean) ** 2) ss_x = np.sum((x - x_mean) ** 2) # 4. 计算斜率 a = SP_xy / SS_x a = sp_xy / ss_x # 5. 计算截距 b = y_mean - a * x_mean b = y_mean - a * x_mean return a, b # 示例：使用我们之前的手动验算数据 x_data = [1, 2, 3] y_data = [1, 2, 2] a_calc, b_calc = linear_regression_manual(x_data, y_data) print(f"计算得到的斜率 a: {a_calc:.4f}") print(f"计算得到的截距 b: {b_calc:.4f}") # 输出：a: 0.5000, b: 0.6667

这段代码的每一行，都严格对应着我们前面推导的数学步骤。np.sum((x - x_mean) * (y - y_mean))就是 SPₓᵧ 的代码实现，np.sum((x - x_mean) ** 2)就是 SSₓ。这种“所见即所得”的代码，是调试和教学的利器。当你发现结果不对时，可以逐行打印中间变量（如x_mean,sp_xy,ss_x），立刻定位是哪一步出了问题。

4.2 与成熟库的对比验证：确保你的“轮子”造得靠谱

自己造的轮子，必须和工业级的轮子跑在同一条赛道上，才能放心使用。我们用scikit-learn来做一个权威验证。

from sklearn.linear_model import LinearRegression # 创建sklearn模型 model = LinearRegression() # 注意：sklearn要求x是二维数组，形状为(n_samples, n_features) # 我们的数据是一维的，所以需要reshape(-1, 1) x_reshaped = np.array(x_data).reshape(-1, 1) model.fit(x_reshaped, y_data) # 获取结果 a_sklearn = model.coef_[0] b_sklearn = model.intercept_ print(f"sklearn得到的斜率 a: {a_sklearn:.4f}") print(f"sklearn得到的截距 b: {b_sklearn:.4f}") # 输出：a: 0.5000, b: 0.6667

结果完全一致！这说明我们的手动实现是正确无误的。这种对比验证，是工程实践中不可或缺的一环。我曾经在一个项目中，因为一个微小的索引错误，导致手动计算的截距总是差一个小数点，花了整整半天才通过和statsmodels的summary()输出对比，揪出了那个 bug。所以，永远不要相信自己的第一版代码，一定要有“金标准”来校验。

4.3 可视化：让回归线“活”在散点图上

公式和数字是冰冷的，而图形是温暖的。我们将用matplotlib把回归线画在散点图上，亲眼见证它的“拟合”效果。

import matplotlib.pyplot as plt # 生成用于绘图的平滑x值，以便画出一条连续的直线 x_plot = np.linspace(min(x_data), max(x_data), 100) y_plot = a_calc * x_plot + b_calc # 创建图形 plt.figure(figsize=(8, 6)) plt.scatter(x_data, y_data, color='blue', label='原始数据点', s=50, zorder=5) plt.plot(x_plot, y_plot, color='red', label=f'回归线: y = {a_calc:.2f}x + {b_calc:.2f}', linewidth=2) plt.xlabel('X') plt.ylabel('Y') plt.title('线性回归可视化') plt.legend() plt.grid(True, alpha=0.3) plt.show()

这张图会清晰地展示出：那条红色的直线，是如何“居中”地穿过蓝色的数据点云的。你可以直观地看到，它确实没有强行穿过任何一个点，但又巧妙地平衡了所有点的上下分布。这种视觉反馈，是任何数字都无法替代的。我习惯在每次建模后都画这样一张图，它就像一个“健康检查”，如果直线看起来明显歪斜或偏离数据中心，那一定是哪里出错了。

4.4 核心参数的物理/业务意义解读：别只当它是数学符号

很多初学者把 a 和 b 当作纯粹的数学输出，这是巨大的浪费。它们承载着丰富的现实意义。

斜率 a：它代表了 x 每增加一个单位，y 的平均变化量。在我们的身高-年龄例子中，a = 6.5 意味着，孩子每长大一岁，平均身高会增长 6.5 厘米。这是一个极具业务价值的洞见，它可以直接指导决策，比如为不同年龄段的孩子设计不同尺寸的校服。
截距 b：它代表了当 x = 0 时，y 的预测值。但要注意，这个解释只有在 x = 0 具有现实意义时才成立。比如，在广告投入-销售额模型中，b 可以解释为“不花一分钱广告费时，预计的自然销售额”。但如果 x 是“员工工龄”，那么 x = 0（刚入职）时的销售额，可能和 b 的数值并不完全等同，因为新员工的销售模式可能完全不同。所以，对 b 的解读，必须结合具体的业务场景，切忌生搬硬套。

注意：在某些情况下，为了赋予截距更合理的解释，我们会对 x 进行中心化处理（即用 x - x̄ 替代原始 x）。这样，新的截距 b' 就直接等于 ȳ，即 y 的均值，其含义就变得无比清晰和稳健。

5. 常见问题与排查技巧实录：那些只有踩过坑才知道的真相

5.1 问题：我的斜率 a 算出来是负数，但业务上明明应该是正相关的！哪里错了？

这是新手最常见的困惑之一。请先深呼吸，然后按以下顺序排查：

检查数据输入顺序：这是最高频的错误！确认你的x数组确实是自变量（原因），y数组是因变量（结果）。我曾见过一个同事，把“销售额”当成了 x，“广告费”当成了 y，结果算出负相关，还写了一页报告分析“为什么花钱越多卖得越少”，闹了个大笑话。用print(x[:3], y[:3])快速确认前几行数据是否符合你的预期。
检查数据范围和量纲：如果 x 和 y 的数值范围相差极大（比如 x 是 0.001, 0.002, ...，而 y 是 1000, 2000, ...），浮点数计算可能会引入微小的数值误差，导致符号错误。此时，对 x 和 y 进行标准化（减均值除标准差）后再计算，结果会更稳定。
检查是否存在强离群点：一个极端的离群点，足以把整条回归线“拽”向错误的方向。画出散点图，是发现这个问题最快的方法。如果图上有一个点孤零零地远离主数据云，先把它暂时剔除，再重新计算，看看 a 的符号是否恢复正常。如果是，那就需要深入分析这个离群点是数据录入错误，还是一个值得单独研究的特殊现象。

5.2 问题：`SSₓ`计算出来是 0，导致除零错误！我的数据怎么了？

SSₓ = ∑(xᵢ - x̄)² = 0意味着所有 xᵢ 的值都完全相等。这在现实中意味着：你的自变量根本没有变化！比如，你收集了 100 个样本，但所有样本的“温度”都是 25°C。在这种情况下，讨论“温度对反应速率的影响”本身就是无意义的，因为温度这个因素根本没动。模型无法从静止的数据中学习到任何关系。

解决方案：

立即停止建模，回到数据源头，检查数据采集过程是否出了问题。
如果确认数据无误（例如，你真的只在一个固定温度下做了实验），那么你需要引入其他有变化的变量（比如催化剂浓度、反应时间）作为新的 x，或者承认当前数据不足以支持线性回归分析。

5.3 问题：手动计算和`sklearn`结果不一致，差了小数点后几位，是精度问题吗？

这通常是由于sklearn内部使用了更稳定的数值算法（如基于 QR 分解的求解器），而我们的手动计算直接用了sum，在数据量极大或数值范围极广时，累积误差会显现。这不是你的公式错了，而是计算方式的差异。

应对策略：

对于绝大多数中小规模数据（n < 10000），这种微小差异完全可以忽略，不影响业务决策。
如果你追求极致的数值稳定性，可以将手动计算升级为使用numpy.linalg.lstsq，它内部就采用了 QR 分解：

# 更稳定的求解方式 X_matrix = np.column_stack((x, np.ones(len(x)))) # 构造设计矩阵 [x, 1] coeffs, residuals, rank, s = np.linalg.lstsq(X_matrix, y, rcond=None) a_stable, b_stable = coeffs[0], coeffs[1]

5.4 问题：回归线看起来“太陡”或“太平”，和我的直觉不符，是模型有问题吗？

回归线的陡峭程度，完全由数据本身的变异程度决定。一个常见的误解是，认为“陡峭”就代表关系强，“平缓”就代表关系弱。其实不然。

斜率 a 的大小，同时取决于 x 和 y 的单位和量纲。比如，用“米”和“秒”计算速度，a 是 5；换成“厘米”和“毫秒”，a 就会变成 500000。所以，孤立地看 a 的数值大小，没有意义。
真正衡量关系强度的，是相关系数 r，它的取值范围是 [-1, 1]，完全不受量纲影响。r 的绝对值越接近 1，线性关系越强。r = SPₓᵧ / √(SSₓ * SSᵧ)，其中 SSᵧ 是 y 的离差平方和。

因此，当你觉得斜率“怪”时，应该立刻计算r。如果|r|很小（比如 < 0.3），那说明即使斜率不为零，x 和 y 之间的线性关联也非常微弱，这时回归线的形态本身就不该成为关注焦点，而应该去探索是否存在非线性关系，或者是否有其他更重要的变量被忽略了。

6. 实战心得与经验总结：一个十年从业者的真实体会

在我用线性回归解决过上百个实际问题之后，有一些心得，是任何教科书都不会写的，但却是保证项目成功的关键。

第一，永远先画图，再建模。这句话我跟团队新人说了不下一百遍。在敲下第一行import numpy之前，必须先用plt.scatter(x, y)看一眼。这张图能告诉你一切：数据是线性的吗？有离群点吗？x 的分布是均匀的吗？y 有明显的异方差（误差随 x 增大而增大）吗？有一次，一个同事跳过了这一步，直接跑模型，得出 R² = 0.95 的“完美”结果。但当我把图调出来时，发现数据呈现完美的抛物线形状，而他的直线只是碰巧在中间一段拟合得不错。R² 高，只是因为数据本身“胖”，而不是模型好。从那以后，我们的建模流程强制加入了一条红线：没有散点图，不准提交模型。

第二，截距 b 的业务解读，比斜率 a 更重要，也更难。斜率 a 告诉你“怎么变”，而截距 b 告诉你“起点在哪”。在金融风控模型中，b 代表了“当所有风险因子都为 0 时，客户的基准违约概率”。这个数字，直接决定了整个评分卡的基线水平。我见过太多模型，a 算得无比精准，但 b 被随意设为 0 或一个经验值，导致整个模型的预测在低风险客户群体上系统性地偏高或偏低。所以，我会花至少一半的时间，和业务方一起，反复推敲 b 的合理取值范围，并用历史数据进行回溯测试。

第三，线性回归不是万能的，但它是所有复杂模型的“锚点”。当你面对一个全新的、复杂的业务问题时，不要一上来就祭出 XGBoost 或神经网络。先用最简单的线性回归跑一遍，记录下它的 RMSE（均方根误差）和 R²。这个数字，就是你后续所有复杂模型的“及格线”。如果一个花了三天调参的深度学习模型，其 RMSE 只比线性回归低了 0.5%，那它带来的额外复杂度和维护成本，几乎肯定是不值得的。线性回归，是你在数据科学世界里的罗盘，它不一定能带你到达终点，但能确保你始终朝着正确的方向前进。

最后，我想分享一个我自己的小技巧。每当我需要向非技术背景的老板或客户解释线性回归时，我从来不说“最小二乘法”或“正规方程”。我会拿起一支笔，在白纸上画三个点，然后说：“看，我们想用一条直线来概括这三个点。最公平的办法，就是让这条线到三个点的‘总距离’最短。但因为我们不能让上面的点和下面的点互相抵消，所以我们把每个距离都‘平方’一下，再加起来。然后，我们用数学的方法，算出能让这个‘总距离’最小的那条线。它一定经过这三个点的‘中心’，就像一个跷跷板的支点。” 用生活化的语言，把数学的严谨，翻译成可感知的逻辑，这才是沟通的真谛。

查看全文

http://www.jsqmd.com/news/1027825/