当前位置: 首页 > news >正文

AI和大模型——拟合

一、拟合

Fitting,中文翻译成拟合,这个翻译还是比较贴切的。怎么理解拟合呢?其实非常好理解,如果接受过九年义务教育,基本都有极限或微积分的概念。有没有想起过积分中用高低不等的小矩形来拼凑出曲线面的面积,那个过程其实就是一个拟合的过程。对于学过傅立叶变换的来说,就更容易理解了。其实在深度学习中,傅立叶变换更能直观的体现拟合这个概念。
通过上面的引入介绍,就可以明白什么是拟合了。它一般指模型通过训练过程学习数据中的模式与关系即找到其内在的规律,以期可以对输入数据做出预测或映射。拟合的好坏直接影响模型的泛化能力。
那么如何才能拟合出最接近期望的值呢?在实际的深度学习应用中,会提供不同的拟合函数来进行处理。比如常见的线性函数、ReLU、Sigmoid等。这不是本文的重点,不展开分析。

二、欠拟合

underfitting,所谓欠拟合,用普通话来说,就是“缺了把火”,以偏代全了。没有真正学习到训练数据中的规律,这有可能是模型简单当然也有可能是数据不够充分。导致其在训练数据集和测试数据庥中的体验都不好,无法达到相关的需求。
从现在来看,出现欠拟合的情况还是比较少见的。解决欠拟合的方法现在已经很成熟了,主要有:

  1. 增强模型的宽度和深度或使用更好的模型
  2. 增加训练时长和迭代次数
  3. 使用更好更全的训练数据集

一般来说,通过上述的完善,都可以明显的改善欠拟合。

三、过拟合

Overfitting。过拟合一般是指学习到了训练数据集中的规律,但由于训练过度,把一些噪声和异常值也给当成了规律。它的结果是导致了泛化能力差。这个也好理解,假如一个男人大眼睛高鼻梁就认为是帅,可由于当天某个帅哥脸上落了一点灰,反而更显得帅,于是就认为有灰也是帅的标准。这就是过拟合了。
其实就是模型过于复杂,参数太多,把许多不应该学习的数据也学习总结成了一个“规律”。它往往会让人产生一种误解认为过拟合的模型很好。因为这种过拟合等于是把训练集的数据吃得太透了,理解的太深刻了。所以在训练集上表现的非常好,但在测试集上表现的很差。这和某些军校的学生成绩特别好,但打起仗来啥都不是一个道理。
解决过拟合的方法也有不少,主要有:

  1. 增加有效的训练数据,用来稀释相关的噪声、异常值
  2. 正则化,其实是就是对模型复杂增加惩罚度,限制权重大小。一般可用L1/L2
  3. 适当降低模型的复杂度
  4. 主动处理并减少无关或冗余的特征
  5. 及时终止相关训练
  6. Dropout,随机丢弃一些神经元数据,强迫学习一些强的特征

过拟合是一种用力过度的表现,把过多的细节当成了特征。这也是没做好常说的“抓大放小”,控制的粒度不够。

四、合适的拟合

Good Fit,这才是一种最希望看到的结果。即真正的把数据的规律摸透,找到其内含的通用的规律。表现为训练集和测试集上都有良好的体现。需要说明的是,合适的拟合不是一个静态的点而是一个动态的平衡点,它控制在欠拟合到过拟合之间的状态区。提供了非常好的泛化的能力。
拟合的本质是不是需要模型把相关的训练集的数据死记住,而要学习其内在的普遍的规律,最终可以在所有的待分析数据中也能得出准确的分析结果。可以理解为达到了‌优化与泛化的平衡。就如人类学习认识物体一样,只要看到一匹马,就可以准确的认出后面没见过的马。人就是通过对马的泛化认知来掌握了马的特点。
如何判断欠拟合比较简单,但如何判断过拟合稍显麻烦。一般来说,可以实时查看训练集与验证集损失曲线‌,如果二者都很高,并且在增加次数等方式下,其下降不明显或基本不变,则说明欠拟合。而如果验证集损失曲线先下降到一个最低点后又开始上升,而训练庥损失曲线持续下降并趋近于零,说明出现过拟合。另外一定不要在测试集上调参‌,否则可能导致“测试集过拟合。
明白了欠拟合和过拟合的时机,那么就知道了什么时候是合适的拟合,即当验证曲线误差降到最低,并且与训练集曲线误差不大时,就可以考虑是合适的拟合了。

五、总结

其实大模型的学习本身就是一个动态的过程,大家不要认为必须怎么做才会达到某个目标。不同的场景和不同的应用下,可能会对大模型有各种微调,其实就是这个道理。

http://www.jsqmd.com/news/803492/

相关文章:

  • AI Agent时代的人机关系新思考
  • 为Hermes Agent配置Taotoken自定义模型提供方
  • 为什么你的Lindy Agent总在凌晨2点崩溃?——生产环境12类超时熔断场景全复盘(含Prometheus监控模板)
  • 喷粉房技术深度分享:选型标准与落地实操全指南 - 奔跑123
  • 小微团队如何利用Taotoken统一管理多模型API密钥与用量成本
  • 基于MCP协议连接AI与Google Docs:实现文档智能读取与分析
  • 冥想第一千八百七十八天(1878)
  • 更新 OpenClaw 到最新版命令
  • 如何用GHelper解决华硕笔记本性能管理难题:轻量级开源工具的完整指南
  • 终极指南:罗技鼠标宏如何帮你轻松征服绝地求生后坐力
  • 告别网盘限速烦恼:八大平台直链解析工具完全指南
  • 第6篇 Consumer 精讲(上):Offset 提交与幂等消费
  • LLM-IDE规则集:为AI编程助手定制项目级行为准则
  • 大国重器背后的“隐形按键“:薄膜开关在工业控制中的技术原理与应用
  • ESP32变身3D打印机“大脑”:手把手教你编译并汉化Marlin 2.x固件
  • Windows系统清理神器:DriverStore Explorer深度使用教程
  • PPTist终极指南:如何在浏览器中创建专业级演示文稿
  • Android相机HAL3接口性能调优实战:如何满足谷歌的严苛耗时要求?
  • STM32 FSMC驱动IS62WV51216 SRAM:从硬件连接到时序配置详解
  • C语言完美演绎9-30
  • 2026台州人身损害纠纷律师选型核心指标全解析:黄岩会见、取保候审律师、黄岩债务纠纷律师、黄岩刑事律师、黄岩医疗纠纷律师选择指南 - 优质品牌商家
  • 2篇3章4节:用 Trae 写作的高级技巧和进阶建议
  • 终极免费Steam创意工坊下载器:WorkshopDL新手完整指南
  • vCenter SSO密码忘了别慌!用vdcadmintool工具5分钟搞定重置(附密码策略修改)
  • 语义保真+学术专业!2026降AI率工具推荐排行 合规安全/全场景适配 - 极欧测评
  • 终极免费游戏加速工具OpenSpeedy完整指南:如何安全突破游戏帧率限制
  • 2026溅射薄膜压力传感器品牌排行榜,广东犸力薄膜传感高端精工品牌 - 品牌速递
  • OpenClaw A2A Gateway插件:构建跨服务器AI代理协作网络
  • ABB MicroFlex e190伺服驱动器EMC干扰实战
  • 别再乱写注释了!RuoYi-Vue-Plus整合Knife4j时,让Swagger文档参数‘消失’的元凶排查