当前位置：首页 > news >正文

从过拟合到泛化能力

news 2026/4/23 18:55:00

要训练好一个神经网络，光有"猜+约"的智慧还不够，我们还需要掌握"适度"的艺术！

还记得我们之前用函数拟合数据点的例子吗？当我们面对这样一组数据：

x	f(x)	y
2	4
3	4.5
4	5
5	5.5
6	6.1

如果我们用一个极其复杂的函数，比如10次多项式，去完美拟合这5个点，会发生什么？

看！这个函数完美地穿过了每一个训练数据点，损失函数几乎为零。但当我们用新数据测试时，比如x=2.5，预测值y=10，而真实值可能是4.25。这就是过拟合——模型在训练数据上表现极好，但在新数据上表现很差。

用一句话概括：过拟合就是"死记硬背标准答案，遇到新题彻底懵圈"

类似于面向结果编程，样例都能过，但一遇到其他数据就抓瞎了。

而模型在未知数据上的表现力就是泛化能力。

那我们该怎么解决过拟合呢？

以下列举五种方法。

最简单的方法就是在过拟合之前，提前停止训练。

还有一个简单的方法就是减少模型的复杂度。

奥卡姆剃刀原理：如非必要，勿增实体。

比如在上述例子中，如果用线性函数可以解释，就不要用10次多项式。在同等解释力的情况下，简单的模型往往比复杂的模型更好。

除此之外，我们也可以通过增加训练数据量来解决这个问题。数据越充足，模型越不容易过拟合。

如果实在没有更多数据，我们也通过对现有数据进行旋转、翻转、裁剪等操作，人工创造出更多训练样本。在也就是所谓的“数据增强”

上述方法听着都好随便啊？有没有看着正经一点的方法呢？有的，那就是正则化。

如果在训练的过程中，我们发现如果让w增加999，可以让损失函数L下降0.01，那么我们要不要改变w?肯定不要。函数曲线抖动地剧烈无比，损失函数却只下降一点点，捡了芝麻丢了西瓜。

那么在实际训练中，我们要怎么判断一个改变值不值得去做呢？

我们可以在损失函数中，将参数本身的值（绝对值）加进去，如果总体增加就不值得去做（L下降一点点，w变大很多），反之，如果总体减小就值得去做。如此便可以抑制参数的野蛮增长。

或

这就是L1正则化。

如果把绝对值换成平方，就是L2正则化：

就是惩罚项，则是正则化系数，用以控制惩罚力度。

当然，我们还有别的招：随机丢弃

这是神经网络里特有的一招狠活，学名Dropout。

原理极其粗暴：
每次训练，随机让部分神经元"带薪休假"。（暂时不让它们工作）。

训练时：每个神经元以概率 p 保留，1−p 丢弃

测试时：所有神经元上岗，但权重按比例缩小

每个神经元都不敢偷懒依赖别人（因为不知道下一秒谁会被干掉），被迫学会单独提取最核心的特征，而不是几个神经元串通一气记死答案。

就像那个成语“滥竽充数”，齐宣王突然要求"每人单独吹竽"，让南郭先生这个混子无处藏身。Dropout迫使每个神经元独立成才，而非抱团作弊。

说到底，AI 的训练过程，就是一场在“记得太死”和“啥也没学会”之间的平衡艺术。

而所谓的调参、加正则化、用 Dropout，其实都是在给那个急于表现、拼命想弯的神经网络当头泼一盆冷水：

“别背答案，去学规律。”

查看全文

http://www.jsqmd.com/news/688609/

2026年4月｜AI智能体平台TOP8榜单 - 资讯焦点

免费开源的WPS AI插件察元AI助手:evaluationStore：追加记录与上限裁剪

2026外科主任医师考试选对老师很重要！5位名师真实授课体验 - 医考机构品牌测评专家

用MATLAB复现诺奖技术：手把手教你仿真Zernike相衬显微镜（附完整代码）

专业GEO优化公司推荐 - 资讯焦点

告别抓包失败：手把手教你用r0Capture脚本通杀iOS/Android的SSL Pinning

DHT11、DHT22、AM2302怎么选？一篇讲透温湿度传感器选型与实战避坑

抖音无水印下载神器：5分钟掌握批量下载视频、直播回放的终极指南

敏感肌暴晒防晒霜推荐，Leeyo防晒霜敏感肌抗汗不脱皮不拔干 - 全网最美

3分钟终极指南：Navicat Premium试用期无限重置脚本完整教程

告别环境冲突：在Kali上优雅管理多个JDK版本（JAVA8/11/17实战）

2026电钢琴选购干货｜全预算覆盖，6款实测爆款+新手避坑指南

MIKE11模型从‘跑不通’到‘跑得准’：新手必看的参数设置与边界条件避坑指南（以洪水模拟为例）

Pearcleaner：告别应用残留，释放macOS的纯净潜能

成为高级性能测试：发现性能瓶颈掌握性能调优

光伏支架型材冷弯成型工艺与设备选型指南

苏菁：从“华为弃将”到“智驾宗师”，一个偏执狂的沉默进化

告别死板长度！用普冉PY32的I2C从机中断实现动态数据收发（附完整代码）

别再只盯着NCBI了！水稻研究必备的7个宝藏数据库，从种质到基因表达一网打尽

保姆级教程：用STM32F103C8T6和MPU6050 DMP库，5分钟搞定姿态解算（附源码）

4月23日千问开放“AI办事”能力，接入东航全流程AI机票服务提升用户效率

live2d虚拟数字人集成

从STM32转战GD32F103：ADC+DMA实战避坑指南（附完整工程）

linux-stable-sw-v4.19.180-sw64-2203.tar.gz 编译错误排查方法

ESXi Unlocker：解锁VMware ESXi平台上的macOS虚拟化能力

别再死记硬背了！用‘造句游戏’和‘俄罗斯套娃’理解上下文无关文法与BNF

MRF8P9040N功放设计避坑指南：负载牵引迭代、稳定性电路与匹配网络的那些事儿

数组与函数的理解与应用

相关文章：