当前位置: 首页 > news >正文

机器学习与模式识别 第一章 机器学习导论 考点压缩

第一章:Introduction to Machine Learning — 知识点笔记

综合来源:Lecture 01 PDF(51页)、课堂笔记(CSDN)


1.1 课程信息

占位用


1.2 课程目标

  1. 掌握核心ML概念和算法的数学基础
  2. 能用Python/PyTorch实现、训练和调试标准模型
  3. 能设计合理的评估方案,确保结果可复现
  4. 为高级课程和研究做准备

涵盖:模型设计、SGD、最大似然、损失函数、监督/无监督学习、分类/回归、正则化与偏差-方差权衡、降维、聚类与密度估计、实验设计


1.3 什么是机器学习 ⭐

定义

Software systems thatimprove (learn) through data.

基本配方

  1. 用**数据(examples)**来训练(fit)一个模型
  2. 用模型来做决策(decisions)

AI vs ML vs DL vs Agent

术语关系营销时间线
AI(人工智能)是目标
ML(机器学习)是方法2015-2020称为Deep Learning
DL(深度学习)ML的子集2020-2024称为AI
Agent(智能体)最新热点2024-现在

AI is the Goal. ML is the Method.

你已经做过ML

  • 线性回归= 机器学习!
  • 训练(Training):用数据教模型
  • 推理(Inference):用模型做预测

1.4 三类问题 ⭐

问题类型定义解决方式
工程问题(Engineering)可以用直接的、可指定的算法或规则解决写代码/规则
ML问题容易演示/评估解决方案但难以直接实现从数据中学习
人类问题(Human)无法精确定义,需要人类判断工程+ML+人类

ML问题的定义

A problem for which it iseasy to demonstrateor evaluate the solution butdifficult to directly implement.

例子

  • 判断短信是否为垃圾邮件 → Spam难以定义(因人而异),但容易展示例子
  • ChatGPT对话 → 难以编程实现,但可以展示好的对话 + 可以评判对话质量

1.5 机器学习 = 学习函数近似 ⭐

h:X→Y(Input → Output)h: X \rightarrow Y \quad \text{(Input → Output)}h:XY(Input → Output)

ML的过程 = 从数据中"学习"模型参数www

三种学习范式

范式输入目标
监督学习(Supervised){(X, Y)} 观测对学习输入到输出的映射关系
无监督学习(Unsupervised){X} 仅有数据发现数据内在模式
强化学习(RL)X, reward(·)从奖励信号中学习策略

监督学习两大任务

任务输出类型例子
分类(Classification)离散标签图像标签{Hot Dog, …}
回归(Regression)连续股票预测、下一词预测

无监督学习两大任务

任务说明例子
聚类与密度估计发现数据中的自然分组图像压缩的近似表示
降维将高维数据映射到低维可视化、作为其他ML任务的预处理

1.6 ML历史发展

时期阶段关键事件
1950s-60s早期自学习跳棋程序(1959)、感知机(1957)
1970s-80s挑战与进步决策树、RL基础、NN再发现
1990s统计ML兴起概率模型、统计学习,强调数学基础
2000s大数据时代数据集增长+计算变便宜→数据挖掘与数据科学
2010s深度学习革命深度学习(2012)、生成模型
现在GenAI时代大语言/多模态模型(LLM/LMM)

教材演变

1996(概率+线代)→ 2006(ML综合)→ 2013-2022(深度学习:NN+Prob+Lin Alg)→ 2023(Modern ML)


1.7 ML生命周期(Lifecycle)⭐

L → P → M → O → P
阶段英文核心问题
LLearning Problem(定义问题)预测什么?用什么数据?如何评判成功?
MModel Design(模型设计)选什么模型族/架构?特征工程?归纳偏置?
OOptimization(优化)定义损失函数?选优化方法(GD等)?正则化?
PPredict & Evaluate(预测与评估)基于评估指标测试模型性能

各阶段详解

L - Learning Problem

  • Target:我想预测什么?(ML任务类型)
  • Objective:如何评估成功?(用什么损失函数)
  • Data:有什么数据?数据表示?训练/测试划分?

M - Model Design

  • Feature Engineering(特征工程):选择特征、编码特征
  • Model family/Architecture(模型族):选择假设空间
  • Hypothesis space(假设空间)
  • Inductive biases / Assumptions(归纳偏置)

O - Optimization

  • Define a loss(定义损失)
  • Choose optimization method(选优化方法:GD/SGD/Adam等)
  • Manage regularization & overfitting(正则化+防过拟合)

P - Predict & Evaluate

  • 基于evaluation metrics评估预测结果

1.8 归纳偏置(Inductive Bias)⭐

定义

学习算法在面对有限训练数据时,为了能对未见过的输入做出合理预测而引入的一组先验假设或偏好

核心理解

  • 给定有限训练样本→存在无限多个函数能完美拟合→但泛化性能不同
  • 归纳偏置从无限可能中**"挑选"出更合理的解→实现泛化**

归纳偏置的来源

来源例子
模型结构选线性模型→假设数据线性可分
特征工程用词袋模型→假设词序无关
正则化L2正则→偏好小权重
架构设计CNN→平移不变性

选择不同的分割线/拟合线 = 决定使用什么样的归纳偏置!
Featurization时也会引入归纳偏置(如词袋=词序无关+词义独立)


1.9 课程工具链

工具用途
pandas数据操作与分析
Plotly / Matplotlib数据可视化
Scikit-learn经典ML任务(分类/回归/聚类)
PyTorch + HuggingFace神经网络开发与NLP模型
Weights & Biases (W&B)实验管理与追踪

1.10 先修要求

  • 编程:Python(函数、类、调试)
  • 概率统计:条件概率、贝叶斯规则、期望;均匀/伯努利/高斯分布
  • 线性代数与微积分:特征值与特征向量;计算梯度、链式法则

笔记中的图片索引

序号图片内容描述来源位置
图1课程封面与教师信息Lecture 01 第1-5页
图2课程内容全景图Lecture 01 第12页
图3ML基本流程:Training→InferenceLecture 01 第18-20页
图4三类学习范式(监督/无监督/强化)Lecture 01 第26页
图5ML历史发展时间线Lecture 01 第31-33页
图6ML生命周期(L-P-M-O-P)循环图Lecture 01 第38-42页
图7课程评估与先修要求Lecture 01 第48-50页

笔记整理时间:2026年6月27日

http://www.jsqmd.com/news/1098870/

相关文章:

  • 吃透Spring事务 :核心原理,传播机制,隔离级别,使用场景
  • 自动化测试框架选型与Robot Framework环境搭建实战指南
  • Windows Defender深度控制架构设计与系统级安全策略管理实现
  • 基于改进YOLOv8与无人机航拍的电动自行车违规行为智能检测系统实战
  • E-Hentai下载器完整指南:如何轻松批量下载并打包图片资源
  • 如何快速部署Python自动化脚本:京东商品预约下单的完整解决方案
  • 第一次学 volatile 关键字,我看了三遍才搞懂它到底在干嘛
  • 如何免费使用Outfit字体:9种字重打造专业品牌设计的完整指南
  • 别再傻傻手写了!Python一行代码判断是不是数字,爽到飞起
  • Ansible自动化运维实战:从入门到精通,轻松管理服务器集群
  • JVM 运行时数据区 —— 5 大块内存
  • C++ Primer Plus 重读精讲 _ 指针进阶全集:三类const指针辨析、指针数组数组指针硬核区分、指针地址传参、工控函数双向改参实战
  • VMware虚拟机组网通信全链路解析(ESXi 7.0+vSphere 8.0实测验证)
  • 面向对象——多态
  • Focus架构:视觉语言模型的高效加速方案
  • 群辉Nas部署GitServer随笔
  • 别再被Python列表拷贝坑了!浅拷贝深拷贝,一个不注意就让你代码崩盘
  • 如何快速查找 *Bash* 命令的*类型*?
  • File和IO
  • 与你的 Elasticsearch 数据对话:使用 Google ADK 和 MCP 构建一个实时语音 agent ,分为 3 个组件
  • 5分钟快速上手:RedisDesktopManager-Windows终极可视化数据库管理工具完整指南
  • 告别串口乱码!STM32F401RCT6用Arduino框架点灯+串口打印保姆级教程
  • C#工业视觉实战:集成工业相机与YOLOv8实现缺陷检测系统
  • 探索兴趣爱好的内涵
  • 廖雪峰Python2教程PDF!20行代码秒杀C语言1000行,速度慢?谁在乎
  • 别再让激光器‘发烧’了!手把手教你用运放搭建高精度恒流源(附LTspice仿真文件)
  • 如何生成字母或数字的*序列*?
  • Dify平台大模型接入实战:从云端API到本地部署全流程指南
  • Postman便携版终极指南:Windows用户的免安装API开发解决方案
  • 别再只会用三极管了!用JFET搭个恒流源给LED调光,实测效果稳如老狗