当前位置: 首页 > news >正文

zlog5

1.单变量线性回归这是回归算法的绝对起点。仅涉及一个自变量和一个因变量,核心是拟合出最优直线来描述两者关系。重点掌握最小二乘法的原理、均方误差等基础评估指标,同时初步理解“损失函数” 这一核心概念,建立对回归问题的基本认知。
2.多变量线性回归
是单变量线性回归的直接拓展,自变量扩展到多个。学习重点在于处理多特征场景下的参数求解,比如通过矩阵运算、梯度下降法(含批量、随机、小批量三种变体)求解模型参数,同时了解特征量纲差异对模型的影响,为后续特征预处理和复杂模型打下基础。
3.正则化线性回归(岭回归→LASSO 回归→弹性网络)基础线性回归易因特征过多等出现过拟合或多重共线性问题,这三种模型是针对性的优化方案,建议按顺序学习。先学岭回归(L2 正则化),理解其通过惩罚参数平方避免过拟合、缓解多重共线性的逻辑;再学 LASSO回归(L1 正则化),重点掌握其能使部分参数归零、实现特征筛选的特性;最后学弹性网络,搞懂它结合L1和 L2 正则化的优势,以及在复杂数据场景中的适用性。
4.多项式回归
作为连接线性与非线性回归的过渡算法,它通过给自变量增加高次项,将非线性问题转化为线性问题求解。学习重点是特征转换的思路,同时要重点关注高次项易引发的过拟合问题,理解如何通过正则化或限制多项式次数来优化模型。
回归是监督学习的两大核心任务之一(另一个是分类)。它的目标是预测一个连续的数值输出。

一、核心思想:预测一个具体的数值

简单来说:回归就是“找规律,预测数”。

分类 回答的是 “是什么?” 的问题,答案是离散的类别(如:猫/狗/车)。
回归 回答的是 “是多少?” 的问题,答案是一个连续的数值(如:价格、温度、销量)。

一个生动的例子:预测房价

输入(特征):房屋面积、卧室数量、地理位置、房龄等。
输出(目标):房屋的价格(一个连续的数值,比如125.5万元,而不是“贵”或“便宜”这样的类别)。
目标:找到一个函数(模型),使得它能根据输入的特征,尽可能准确地预测出房屋的价格。

二、最简单的回归模型:线性回归

线性回归是理解回归思想最直观的模型。它假设输入特征(X)和输出目标(y)之间存在线性关系。

模型形式
对于只有一个特征的情况(简单线性回归),模型可以表示为一条直线的方程:

y = w₁x + b

· y:预测值(我们要预测的数字)。
· x:特征(输入)。
· w₁:权重或系数,表示直线的斜率。它告诉我们 x 每变化一个单位,y 会变化多少。
· b:偏置或截距,表示当 x 为0时 y 的值。

对于有多个特征的情况(多元线性回归),模型则是一个超平面:

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

如何“学习”?损失函数与梯度下降
模型如何找到最合适的 w(权重)和 b(偏置)呢?

· 第一步:定义“好坏” - 损失函数
我们需要一个标准来衡量模型的预测值 ŷ 与真实值 y 之间的差距。最常用的损失函数是均方误差:
MSE = (1/n) * Σ(ŷᵢ - yᵢ)²
它的思想是:计算所有预测值与真实值之差的平方的平均值。MSE 越小,说明模型拟合得越好。
· 第二步:优化 - 找到最小化损失函数的参数
我们的目标就是找到一组 w 和 b,使得 MSE 的值最小。这个过程就像下山,要找到山谷的最低点(损失最小的地方)。最常用的“下山”算法是梯度下降。

随机初始化 w 和 b。
计算当前参数下损失函数的梯度(即坡度)。
沿着梯度反方向(即下坡方向)更新参数。
重复步骤2和3,直到找到最低点(或达到收敛)。
三、常见的回归算法

除了线性回归,还有许多其他强大的回归算法,它们能捕捉更复杂的数据关系。

算法 核心思想 优点 缺点
线性回归 用一条直线(或超平面)来拟合数据。 简单、快速、可解释性强。 无法捕捉非线性关系。
多项式回归 线性回归的扩展,用多项式曲线(如二次函数)来拟合数据。 能捕捉简单的非线性关系。 容易过拟合,尤其在高次项时。
决策树回归 通过一系列 if-else 问题将数据分割,最终在每个叶子节点用平均值作为预测值。 能捕捉复杂非线性关系,对异常值不敏感,无需标准化。 非常容易过拟合。
随机森林回归 构建多棵决策树,并将它们的预测结果进行平均。 强大、稳定,能有效防止过拟合,精度高。 失去了决策树的可解释性,计算开销大。
支持向量回归 不是试图最小化所有点的误差,而是试图找到一个“间隔带”,使得尽可能多的点落在这个带内。 对异常点不敏感,在高维空间表现良好。 对参数敏感,大规模数据训练慢。
梯度提升回归 (如 XGBoost) sequentially 构建一系列弱模型(通常是决策树),每个新模型都致力于修正前一个模型的错误。 当前结构化数据竞赛的王者,精度极高。 参数多,调参复杂,容易过拟合如果训练不当。

四、如何评估回归模型?

我们不能只看模型“感觉”准不准,需要用定量的指标来评估。以下是核心指标:

指标 公式 解释
均方误差 MSE = (1/n) * Σ(ŷᵢ - yᵢ)² 最常用。平方项会放大较大误差的影响。值越小越好。
均方根误差 RMSE = √MSE MSE 的平方根。优点:其单位与预测目标 y 的单位相同,更易于解释。
平均绝对误差 MAE = (1/n) * Σ|ŷᵢ - yᵢ| 绝对值的平均。对异常值不如 MSE 敏感。
R² 决定系数 R² = 1 - (Σ(ŷᵢ - yᵢ)² / Σ(yᵢ - ȳ)²) 表示模型能解释目标变量方差的百分比。范围通常在0到1之间,越接近1越好。

如何选择评估指标?

· RMSE 是最普遍和直接的指标。
· 如果你特别关心异常值的影响,用 MSE。
· 如果你希望减弱异常值的影响,用 MAE。
· 如果你想知道模型相对于简单预测平均值(基准模型)有多好,用 R²。

五、回归的挑战与注意事项

过拟合与欠拟合:
· 过拟合:模型在训练集上表现很好,但在测试集上表现差。模型过于复杂,学到了数据中的噪声。
· 解决:简化模型、增加数据、使用正则化(如在损失函数中加入对权重的惩罚项)。
· 欠拟合:模型在训练集和测试集上都表现不佳。模型过于简单,无法捕捉数据中的规律。
· 解决:增加模型复杂度、增加更多有效特征。
特征相关性:如果输入的特征之间高度相关,可能会影响模型的稳定性和可解释性(多重共线性问题)。
非线性关系:如果数据的关系不是线性的,强行使用线性回归会导致效果很差。此时需要选择多项式回归、树模型等。
总结

回归是预测连续值的强大工具,从简单的线性关系到复杂的非线性模式,都有相应的算法可以应对。掌握回归的关键在于:

理解问题:确认你的目标是一个连续值。
探索数据:可视化数据,观察特征与目标之间的关系。
选择合适的模型:从简单的线性回归开始,逐步尝试更复杂的模型。
严谨评估:使用 RMSE、MAE、R² 等指标客观评估模型性能。
迭代优化:通过特征工程和模型调优来不断提升性能。
它在商业(预测销量)、金融(预测股价)、科研(预测实验结果)等领域的应用无处不在。

http://www.jsqmd.com/news/33014/

相关文章:

  • Chronic disease
  • 11.6 1.基础HTTPGET接口请求测试
  • ICPC2023杭州个人题解
  • 2025年11月学习机品牌推荐榜:清北双师与AI精准学排行盘点
  • 2025年11月学习机品牌推荐:护眼大屏榜多维对比排行
  • Linux - 压缩解压篇
  • 2025年11月学习机品牌权威榜:读书郎领衔五强对比评测
  • 2025年湖南网络工程师公司权威推荐:信息安全工程师/软考网站/信息系统监理师服务供应商精选
  • P2416 泡芙 题解
  • MySQL超大分页怎么处理?
  • 2025年上海GEO公司权威推荐:GEO运营商/GEO搜索优化/AI搜索优化服务商精选
  • P14364 [CSP-S 2025] 员工招聘 / employ
  • post表单提交接口测试
  • 2025年常州logo设计公司权威推荐榜单:商标logo设计/文字logo设计/品牌logo设计源头公司精选
  • JMeter题目
  • centos7 文件夹下 按年月统计文件大小
  • 完整教程:舆情处置的智能化进阶:Infoseek舆情系统如何构建企业数字免疫体系
  • 2025 年 BA 自控系统厂家最新推荐排行榜:行业优质企业核心优势全面解析,含权威测评数据空调箱 BA 自控系统/新风机组 BA 自控系统公司推荐
  • 基础HTTP GET 接口请求测试
  • HTTP POST表单提交接口测试
  • 2025年铜陵钨杆回收公司权威推荐榜单:钨条回收/废钼回收/钼铁回收源头公司精选
  • API接口测试
  • ▇壳子
  • AI元人文构想:人机共生智慧文明治理新范式整理报告
  • 2025年湖南专利申请公司权威推荐榜单:期刊论文公司/专著合著出版公司/重点课题申报服务机构精选
  • 基础HTTP GET接口请求测试
  • 2025年比较好的设计感保温杯厂家推荐及选择参考
  • 2025 年自控系统厂家最新推荐榜:综合实力测评出炉,盘点行业权威品牌及选择指南文丘里阀环境监测/智能建筑能源管理自控系统/电力监控系统公司推荐
  • HTTPPOST表单提交接口测试
  • 2025年铝合金吊顶推荐供应商新排名,铝合金吊顶实力厂家推荐