当前位置：首页 > news >正文

zlog5

news 2026/3/26 20:26:41

1.单变量线性回归这是回归算法的绝对起点。仅涉及一个自变量和一个因变量，核心是拟合出最优直线来描述两者关系。重点掌握最小二乘法的原理、均方误差等基础评估指标，同时初步理解“损失函数” 这一核心概念，建立对回归问题的基本认知。
2.多变量线性回归
是单变量线性回归的直接拓展，自变量扩展到多个。学习重点在于处理多特征场景下的参数求解，比如通过矩阵运算、梯度下降法(含批量、随机、小批量三种变体)求解模型参数，同时了解特征量纲差异对模型的影响，为后续特征预处理和复杂模型打下基础。
3.正则化线性回归(岭回归→LASSO 回归→弹性网络)基础线性回归易因特征过多等出现过拟合或多重共线性问题，这三种模型是针对性的优化方案，建议按顺序学习。先学岭回归(L2 正则化)，理解其通过惩罚参数平方避免过拟合、缓解多重共线性的逻辑;再学 LASSO回归(L1 正则化)，重点掌握其能使部分参数归零、实现特征筛选的特性;最后学弹性网络，搞懂它结合L1和 L2 正则化的优势，以及在复杂数据场景中的适用性。
4.多项式回归
作为连接线性与非线性回归的过渡算法，它通过给自变量增加高次项，将非线性问题转化为线性问题求解。学习重点是特征转换的思路，同时要重点关注高次项易引发的过拟合问题，理解如何通过正则化或限制多项式次数来优化模型。
回归是监督学习的两大核心任务之一（另一个是分类）。它的目标是预测一个连续的数值输出。

一、核心思想：预测一个具体的数值

简单来说：回归就是“找规律，预测数”。

分类回答的是 “是什么？” 的问题，答案是离散的类别（如：猫/狗/车）。
回归回答的是 “是多少？” 的问题，答案是一个连续的数值（如：价格、温度、销量）。

一个生动的例子：预测房价

输入（特征）：房屋面积、卧室数量、地理位置、房龄等。
输出（目标）：房屋的价格（一个连续的数值，比如125.5万元，而不是“贵”或“便宜”这样的类别）。
目标：找到一个函数（模型），使得它能根据输入的特征，尽可能准确地预测出房屋的价格。

二、最简单的回归模型：线性回归

线性回归是理解回归思想最直观的模型。它假设输入特征（X）和输出目标（y）之间存在线性关系。

模型形式
对于只有一个特征的情况（简单线性回归），模型可以表示为一条直线的方程：

y = w₁x + b

· y：预测值（我们要预测的数字）。
· x：特征（输入）。
· w₁：权重或系数，表示直线的斜率。它告诉我们 x 每变化一个单位，y 会变化多少。
· b：偏置或截距，表示当 x 为0时 y 的值。

对于有多个特征的情况（多元线性回归），模型则是一个超平面：

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

如何“学习”？损失函数与梯度下降
模型如何找到最合适的 w（权重）和 b（偏置）呢？

· 第一步：定义“好坏” - 损失函数
我们需要一个标准来衡量模型的预测值 ŷ 与真实值 y 之间的差距。最常用的损失函数是均方误差：
MSE = (1/n) * Σ(ŷᵢ - yᵢ)²
它的思想是：计算所有预测值与真实值之差的平方的平均值。MSE 越小，说明模型拟合得越好。
· 第二步：优化 - 找到最小化损失函数的参数
我们的目标就是找到一组 w 和 b，使得 MSE 的值最小。这个过程就像下山，要找到山谷的最低点（损失最小的地方）。最常用的“下山”算法是梯度下降。

随机初始化 w 和 b。
计算当前参数下损失函数的梯度（即坡度）。
沿着梯度反方向（即下坡方向）更新参数。
重复步骤2和3，直到找到最低点（或达到收敛）。
三、常见的回归算法

除了线性回归，还有许多其他强大的回归算法，它们能捕捉更复杂的数据关系。

算法核心思想优点缺点
线性回归用一条直线（或超平面）来拟合数据。简单、快速、可解释性强。无法捕捉非线性关系。
多项式回归线性回归的扩展，用多项式曲线（如二次函数）来拟合数据。能捕捉简单的非线性关系。容易过拟合，尤其在高次项时。
决策树回归通过一系列 if-else 问题将数据分割，最终在每个叶子节点用平均值作为预测值。能捕捉复杂非线性关系，对异常值不敏感，无需标准化。非常容易过拟合。
随机森林回归构建多棵决策树，并将它们的预测结果进行平均。强大、稳定，能有效防止过拟合，精度高。失去了决策树的可解释性，计算开销大。
支持向量回归不是试图最小化所有点的误差，而是试图找到一个“间隔带”，使得尽可能多的点落在这个带内。对异常点不敏感，在高维空间表现良好。对参数敏感，大规模数据训练慢。
梯度提升回归（如 XGBoost） sequentially 构建一系列弱模型（通常是决策树），每个新模型都致力于修正前一个模型的错误。当前结构化数据竞赛的王者，精度极高。参数多，调参复杂，容易过拟合如果训练不当。

四、如何评估回归模型？

我们不能只看模型“感觉”准不准，需要用定量的指标来评估。以下是核心指标：

指标公式解释
均方误差 MSE = (1/n) * Σ(ŷᵢ - yᵢ)² 最常用。平方项会放大较大误差的影响。值越小越好。
均方根误差 RMSE = √MSE MSE 的平方根。优点：其单位与预测目标 y 的单位相同，更易于解释。
平均绝对误差 MAE = (1/n) * Σ|ŷᵢ - yᵢ| 绝对值的平均。对异常值不如 MSE 敏感。
R² 决定系数 R² = 1 - (Σ(ŷᵢ - yᵢ)² / Σ(yᵢ - ȳ)²) 表示模型能解释目标变量方差的百分比。范围通常在0到1之间，越接近1越好。

如何选择评估指标？

· RMSE 是最普遍和直接的指标。
· 如果你特别关心异常值的影响，用 MSE。
· 如果你希望减弱异常值的影响，用 MAE。
· 如果你想知道模型相对于简单预测平均值（基准模型）有多好，用 R²。

五、回归的挑战与注意事项

过拟合与欠拟合：
· 过拟合：模型在训练集上表现很好，但在测试集上表现差。模型过于复杂，学到了数据中的噪声。
· 解决：简化模型、增加数据、使用正则化（如在损失函数中加入对权重的惩罚项）。
· 欠拟合：模型在训练集和测试集上都表现不佳。模型过于简单，无法捕捉数据中的规律。
· 解决：增加模型复杂度、增加更多有效特征。
特征相关性：如果输入的特征之间高度相关，可能会影响模型的稳定性和可解释性（多重共线性问题）。
非线性关系：如果数据的关系不是线性的，强行使用线性回归会导致效果很差。此时需要选择多项式回归、树模型等。
总结

回归是预测连续值的强大工具，从简单的线性关系到复杂的非线性模式，都有相应的算法可以应对。掌握回归的关键在于：

理解问题：确认你的目标是一个连续值。
探索数据：可视化数据，观察特征与目标之间的关系。
选择合适的模型：从简单的线性回归开始，逐步尝试更复杂的模型。
严谨评估：使用 RMSE、MAE、R² 等指标客观评估模型性能。
迭代优化：通过特征工程和模型调优来不断提升性能。
它在商业（预测销量）、金融（预测股价）、科研（预测实验结果）等领域的应用无处不在。

查看全文

http://www.jsqmd.com/news/33014/