当前位置: 首页 > news >正文

从过拟合到泛化能力

要训练好一个神经网络,光有"猜+约"的智慧还不够,我们还需要掌握"适度"的艺术!

还记得我们之前用函数拟合数据点的例子吗?当我们面对这样一组数据:

xf(x)y
24
34.5
45
55.5
66.1

如果我们用一个极其复杂的函数,比如10次多项式,去完美拟合这5个点,会发生什么?

看!这个函数完美地穿过了每一个训练数据点,损失函数几乎为零。但当我们用新数据测试时,比如x=2.5,预测值y=10,而真实值可能是4.25。这就是过拟合——模型在训练数据上表现极好,但在新数据上表现很差。

用一句话概括:过拟合就是"死记硬背标准答案,遇到新题彻底懵圈"

类似于面向结果编程,样例都能过,但一遇到其他数据就抓瞎了。

而模型在未知数据上的表现力就是泛化能力


那我们该怎么解决过拟合呢?

以下列举五种方法。


最简单的方法就是在过拟合之前,提前停止训练。


还有一个简单的方法就是减少模型的复杂度

奥卡姆剃刀原理:如非必要,勿增实体。

比如在上述例子中,如果用线性函数可以解释,就不要用10次多项式。在同等解释力的情况下,简单的模型往往比复杂的模型更好。


除此之外,我们也可以通过增加训练数据量来解决这个问题。数据越充足,模型越不容易过拟合。

如果实在没有更多数据,我们也通过对现有数据进行旋转、翻转、裁剪等操作,人工创造出更多训练样本。在也就是所谓的“数据增强”


上述方法听着都好随便啊?有没有看着正经一点的方法呢?有的,那就是正则化

如果在训练的过程中,我们发现如果让w增加999,可以让损失函数L下降0.01,那么我们要不要改变w?肯定不要。函数曲线抖动地剧烈无比,损失函数却只下降一点点,捡了芝麻丢了西瓜。

那么在实际训练中,我们要怎么判断一个改变值不值得去做呢?

我们可以在损失函数中,将参数本身的值(绝对值)加进去,如果总体增加就不值得去做(L下降一点点,w变大很多),反之,如果总体减小就值得去做。如此便可以抑制参数的野蛮增长。

这就是L1正则化

如果把绝对值换成平方,就是L2正则化

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

就是惩罚项则是正则化系数,用以控制惩罚力度。


当然,我们还有别的招:随机丢弃

这是神经网络里特有的一招狠活,学名Dropout

原理极其粗暴
每次训练,随机让部分神经元"带薪休假"。(暂时不让它们工作)。

训练时:每个神经元以概率 p 保留,1−p 丢弃

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

测试时:所有神经元上岗,但权重按比例缩小

每个神经元都不敢偷懒依赖别人(因为不知道下一秒谁会被干掉),被迫学会单独提取最核心的特征,而不是几个神经元串通一气记死答案。

就像那个成语“滥竽充数”,齐宣王突然要求"每人单独吹竽",让南郭先生这个混子无处藏身。Dropout迫使每个神经元独立成才,而非抱团作弊。


说到底,AI 的训练过程,就是一场在“记得太死”“啥也没学会”之间的平衡艺术。

而所谓的调参、加正则化、用 Dropout,其实都是在给那个急于表现、拼命想弯的神经网络当头泼一盆冷水:

“别背答案,去学规律。”

http://www.jsqmd.com/news/688609/

相关文章:

  • 2026年4月|AI智能体平台TOP8榜单 - 资讯焦点
  • 免费开源的WPS AI插件 察元AI助手:evaluationStore:追加记录与上限裁剪
  • 2026外科主任医师考试选对老师很重要!5位名师真实授课体验 - 医考机构品牌测评专家
  • 用MATLAB复现诺奖技术:手把手教你仿真Zernike相衬显微镜(附完整代码)
  • 专业GEO优化公司推荐 - 资讯焦点
  • 告别抓包失败:手把手教你用r0Capture脚本通杀iOS/Android的SSL Pinning
  • DHT11、DHT22、AM2302怎么选?一篇讲透温湿度传感器选型与实战避坑
  • 抖音无水印下载神器:5分钟掌握批量下载视频、直播回放的终极指南
  • 敏感肌暴晒防晒霜推荐,Leeyo防晒霜敏感肌抗汗不脱皮不拔干 - 全网最美
  • 3分钟终极指南:Navicat Premium试用期无限重置脚本完整教程
  • 2026适合学生吃的补脑保健产品推荐:哪个牌子适合学生吃的补脑保健产品最好用? - 资讯焦点
  • 告别环境冲突:在Kali上优雅管理多个JDK版本(JAVA8/11/17实战)
  • 2026电钢琴选购干货|全预算覆盖,6款实测爆款+新手避坑指南
  • MIKE11模型从‘跑不通’到‘跑得准’:新手必看的参数设置与边界条件避坑指南(以洪水模拟为例)
  • Pearcleaner:告别应用残留,释放macOS的纯净潜能
  • 成为高级性能测试:发现性能瓶颈掌握性能调优
  • 光伏支架型材冷弯成型工艺与设备选型指南
  • 苏菁:从“华为弃将”到“智驾宗师”,一个偏执狂的沉默进化
  • 告别死板长度!用普冉PY32的I2C从机中断实现动态数据收发(附完整代码)
  • 别再只盯着NCBI了!水稻研究必备的7个宝藏数据库,从种质到基因表达一网打尽
  • 保姆级教程:用STM32F103C8T6和MPU6050 DMP库,5分钟搞定姿态解算(附源码)
  • 4月23日千问开放“AI办事”能力,接入东航全流程AI机票服务提升用户效率
  • 2026年合肥ICL晶体植入医院推荐指南:高度近视与角膜薄人群的“可逆”之选 - 安互工业信息
  • live2d虚拟数字人集成
  • 从STM32转战GD32F103:ADC+DMA实战避坑指南(附完整工程)
  • linux-stable-sw-v4.19.180-sw64-2203.tar.gz 编译错误排查方法
  • ESXi Unlocker:解锁VMware ESXi平台上的macOS虚拟化能力
  • 别再死记硬背了!用‘造句游戏’和‘俄罗斯套娃’理解上下文无关文法与BNF
  • MRF8P9040N功放设计避坑指南:负载牵引迭代、稳定性电路与匹配网络的那些事儿
  • 数组与函数的理解与应用