当前位置：首页 > news >正文

机器学习策略（吴恩达深度学习笔记）

news 2026/7/5 12:21:26

目录

0.机器学习策略

1.正交化原则

2.单一数字评估指标

（1）定义

（2）查准率和查全率

3.满足和优化指标

（1）介绍

（2）例子

4.训练集，开发集，测试集的划分

（1）机器学习工作流程

（2）开发集和测试集要来自同一分布

（3）数据集大小划分

（4）什么时候改变指标或开发集/测试集

5.人类水平 / 人类表现

（1）概念

（2）为什么超越人类水平之前一直很快，但超越人类水平进展会变慢。

（3）估计贝叶斯错误率

（4）可避免偏差

0.机器学习策略

优化深度学习模型时，错误的选择可能会浪费很多时间。机器学习策略能让我们找到调整哪些参数最可能有效优化模型的。

1.正交化原则

机器学习中的正交化，核心是让系统的不同组件(调整方案)只负责单一任务，对于不同的情况有专门的解决办法。
比如：模型若训练误差高，只需聚焦提升拟合能力，无需同时调整泛化相关策略。

2.单一数字评估指标

（1）定义

在通过调整参数、更换算法、更改模型结构等方式优化模型时，用一个单一实数来评估优化后的模型是好是坏。

（2）查准率和查全率

查准率 (Precision)：预测为1中实际为1的比例。（衡量准不准）
查全率 (Recall)：实际为1中被预测为1的比例。（衡量漏没漏）
实际情况下要结合查准率和查全率，一般用两者的调和平均数：2 / (1/P ＋ 1/R)
平均率：如果A, B......F 六个国家分类器对于不同国家的错误率和平均错误率如下，则C为最好的分类器。

3.满足和优化指标

（1）介绍

在一些情况中把所有事情组合成单实数评估指标有时并不容易，可能有多个指标，在那些情况里，有时候设立满足指标（satisficing metrics）和优化指标（optimizing metrics）是很重要的。
如果你需要顾及多个指标，比如说，有一个优化指标，你想尽可能优化的，然后还有一个或多个满足指标，需要满足的，需要达到一定的门槛（threshold）。

（2）例子

这里有A、B、C三个分类器，假设我们只看中分类准确度，你可以使用F1分数来衡量。但是如果除了准确度，还需要考虑运行时间，会发现这两个指标不太合适综合成单值评价指标。因此，我们可以说准确度是一个优化指标，因为你想要准确度最大化，而运行时间就是我们所说的满足指标，意思是它必须满足一个阈值，这里假设它只需要小于100毫秒，达到之后，你不在乎这指标有多好。
所以我们选择分类器B

4.训练集，开发集，测试集的划分

（1）机器学习工作流程

机器学习中的工作流程是用训练集训练不同的模型，然后使用开发集来评估，然后选择一个，之后不断迭代去改善开发集的性能，直到最后你可以得到一个令你满意的成本，然后你再用测试集去评估。

（2）开发集和测试集要来自同一分布

如果你的开发集和测试集来自不同的分布，针对开发集优化时瞄准一个靶心，而在测试时效果却不佳，因为靶心移到不同的位置了。为了避免这种情况，要将所有数据随机洗牌，放入开发集和测试集，使开发集和测试集都来自同一分布，这分布就是把所有数据混在一起服从的分布。

（3）数据集大小划分

旧的划分方式
机器学习早期，这样70/30或者60/20/20分的经验法则是相当合理的。如果你有几千个样本或者有一万个样本，这些做法也还是合理的。
但在现代机器学习中，我们更习惯操作规模大得多的数据集，比如说1百万个训练样本，这样分可能更合理，98%作为训练集，1%开发集，1%测试集。

（4）什么时候改变指标或开发集/测试集

总结：有问题的时候
eg1：构建一个猫分类器，试图找到很多猫的照片，使用的指标是分类错误率。算法A和B分别有3％错误率和5％错误率，所以算法A似乎做得更好。但是算法A由于某些原因，把很多色情图片分类成猫了，而算法B没有让任何色情图像通过，从用户接受的角度来看，算法B更好。这时应该改变评估指标，或者要改变开发集或测试集。
eg2：现在两个分类器A和B，在开发集上分别有3%和5%的错误率，但在实际部署产品时，算法B表现更好。研究发现训练过程使用的都是高质量图片，而部署到手机应用时，用户上传的图片是低质量的，这些图片取景不专业，猫不完整，或图像模糊。开发集/测试集和实际应用的图片不同分布，所以方针就是修改指标或者开发测试集。

5.人类水平 / 人类表现

（1）概念

我们衡量一个模型的好坏，通常把它和人类表现相比较
如图，训练模型时，随着时间的延长，模型的表现会超过人类表现水平，之后性能或准确率上升就会变得缓慢，而且不会一个超过理论上限——贝叶斯最优错误率。
贝叶斯最优错误（Bayes Optimal Error）是所有可能的分类器（包括最优分类器）在给定数据分布下能达到的最小错误率，是衡量模型性能的理论上限。

（2）为什么超越人类水平之前一直很快，但超越人类水平进展会变慢。

因为模型的训练是人类来改进的，在未达到人类水平之前，人类可以看到模型的不足（网络结构、算法、偏差方差.......）并改进，超过人类水平后，人类很难找到不足之处

（3）估计贝叶斯错误率

一些情况下，可以用人类水平的错误率估计或代替贝叶斯错误率。
对于计算机视觉任务而言，这样替代相当合理，因为人类实际上是非常擅长计算机视觉任务的，所以人类能做到的水平和贝叶斯错误率相差不远。

（4）可避免偏差

贝叶斯错误率或者对贝叶斯错误率的估计和训练错误率之间的差值称为可避免偏差（avoidable bias）。
你可能希望一直提高训练集表现，直到你接近贝叶斯错误率，但实际上你也不希望做到比贝叶斯错误率更好，因为理论上是不可能超过贝叶斯错误率的，除非过拟合。而训练错误率和开发错误率之前的差值，就大概说明你的算法在方差

http://www.jsqmd.com/news/78590/

相关文章：

跨语言代码转换实战：5大编程语言20组翻译对性能深度解析

山东省地理空间数据资源包：开启GIS分析新体验

NOIP2025 游记，我们都有光明的未来。

《Python学习手册》第1章课后作业

我把公司开发后台的效率提高了10倍，就因为用了Appsmith。

ADE-Python，Landing AI开源的自动数据增强工具，让AI开发更高效

从战五渣到暗影主宰！《我独自升级：起立・觉醒》一个人封神之路

MySQL事务与日志机制深度剖析

gradio快速部署大模型进行问答

英伟达奖学金半数以上都是华人？

题解：P9388 [THUPC 2023 决赛] 先人类的人类选别

AI驱动的新威胁：智能合约漏洞自动化利用

3步掌握：PDFMathTranslate与DeepSeek的终极PDF翻译方案

电路 — 第一章电路模型和电路定律（1）

SDXL VAE FP16修复终极指南：彻底解决显存溢出问题

2025年12月江苏电力设备/电气设备/电器设备品牌推荐与选购指南 - 2025年11月品牌推荐榜

2026年软考软件设计师考试题型有哪些？

媒体发布架构技术深度解析：Infoseek 基于 AI 的多模态发布架构与 API 实践

WAN2.1文本转视频模型参数调优指南

终极全模态AI革命：Qwen2.5-Omni-3B如何用30亿参数重塑行业标准

ggplot2数据可视化终极指南：从入门到精通

题解：CodeForces 1967E2 Again Counting Arrays (Hard Version)

Wan2.2-Animate-14B：用AI技术实现电影级角色动画的完整指南

18、IPsec与虚拟专用网络全解析

AI工程实战手册：产品运营的智能决策指南

2025年下半年安徽聚酯瓶/农药瓶牌综合推荐与选择指南 - 2025年11月品牌推荐榜

我是如何干掉“在我电脑上明明是好的”这句废话的？

WFU 保存小球为mask