当前位置: 首页 > news >正文

大模型AI-入门-发展历程-机器学习

部分内容可能来自网络或者由AI生成。
如有雷同,纯属巧合,仅供学习参考之用。

机器学习(ML)

机器学习是人工智能的核心分支,其本质是让计算机系统从数据中自动学习规律,并用于预测或决策。


一、机器学习的三大核心阶段

机器学习项目可抽象为以下三个阶段,形成一个完整的“学习-应用”闭环:

阶段名称核心任务类比
1记忆(Memorize)收集、清洗、理解数据“读万卷书”——积累经验
2制定(Formulate)构建模型、训练参数、优化性能“总结规律”——提炼方法论
3预测(Predict)应用模型对新数据做出预测或决策“学以致用”——解决实际问题

💡 这一框架强调:数据是燃料,模型是引擎,预测是价值输出


二、基础概念解析

1. 数据、特征与数据点

  • 数据(Data):用于训练和测试模型的原始信息集合。

  • 特征(Feature):描述数据属性的变量,是模型的输入。例如房屋的“面积”、“卧室数”。

  • 数据点(Data Point)

    • 又称样本(Sample)实例(Instance)

    • 在结构化数据中,每一行 = 一个数据点每一列 = 一个特征或标签

三、线性回归:最简单的监督学习模型

1. 数学表达

线性回归假设目标变量 $ y $ 与输入特征 $ x_1, x_2, …, x_n $ 之间存在线性关系:

y=w_1x_1+w_2x_2+⋯+w_nx_n+by = w\_1 x\_1 + w\_2 x\_2 + \cdots + w\_n x\_n + by=w_1x_1+w_2x_2++w_nx_n+b

其中:

  • $ y $:目标变量(因变量/标签),如房价

  • $ x_i $:输入特征(自变量),如面积、房龄

  • $ w_i $:权重(Weight),表示特征对预测的贡献程度(即“斜率”)

  • $ b $:偏置(Bias),当所有特征为0时的基准预测值

📌参数 = 权重 + 偏置,是模型通过训练学习到的核心内容。

2. 模型训练目标

通过最小化预测值与真实值之间的误差(如均方误差 MSE),自动调整 $ w $ 和 $ b $,使拟合直线尽可能贴近数据分布。

3. 与大模型的联系

  • 线性回归仅有 $ n+1 $ 个参数($ n $ 个权重 + 1 个偏置)

  • 而像DeepSeek-671B这样的大语言模型拥有6710亿个参数(即671B个权重与偏置)

  • 更多参数 → 更强的非线性拟合能力 → 可捕捉复杂模式(如语言、图像中的深层语义)

⚠️ 但参数越多 ≠ 效果越好,需权衡过拟合风险、计算成本与数据规模


四、机器学习三大范式

1. 监督学习(Supervised Learning)

  • 定义:使用带标签的数据训练模型,学习输入 → 输出的映射关系。

  • 特点:有“教师指导”,目标明确。

  • 主要类型

    • 回归(Regression):预测连续值(如房价、温度)

    • 分类(Classification):预测离散类别(如垃圾邮件/非垃圾邮件、猫/狗)

🧒类比:不断给婴儿看“冰激凌”的图片并告诉它“这是冰激凌”,之后让它判断新图片是否为冰激凌。

  • 优势

    • 准确性高

    • 可解释性强

    • 应用广泛(医疗诊断、金融风控、推荐系统等)


2. 无监督学习(Unsupervised Learning)

  • 定义:处理无标签数据,目标是发现数据内在结构或模式。

  • 特点:无教师指导,靠“自主探索”。

  • 主要类型

    • 聚类(Clustering):将相似样本分组(如客户细分、图像分割)

    • 降维(Dimensionality Reduction):压缩特征维度,保留关键信息(如PCA、t-SNE)

    • 生成模型(Generative Models):学习数据分布以生成新样本(如GAN、VAE)

🧒类比:给婴儿一堆未标注的图片,让它自己将“看起来像的”图片归为一类。

  • 应用场景

    • 探索性数据分析

    • 异常检测

    • 数据预处理(如降维加速后续建模)


3. 强化学习(Reinforcement Learning, RL)

  • 定义:智能体(Agent)在环境中通过试错(Trial-and-Error)学习策略,以最大化长期累积奖励

  • 核心要素

    • Agent:学习者(如机器人)

    • Environment:外部世界(如迷宫)

    • Action:Agent可执行的操作

    • Reward:环境反馈的即时奖惩信号

    • Policy:Agent的决策策略(目标:找到最优策略

  • 特点

    • 无需标签,仅依赖奖励信号

    • 强调序列决策长期收益

    • 广泛应用于游戏AI(AlphaGo)、自动驾驶、机器人控制


五、特征工程:模型性能的“隐形推手”

“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。” —— 吴恩达

特征工程的核心任务

任务说明示例
数据清洗处理缺失值、异常值、噪声用均值填补空缺年龄
特征选择保留对目标最有用的特征从10个房产特征中选出面积、地段、房龄
特征提取从原始数据构造新特征从“出生日期”提取“年龄”;CNN自动提取图像边缘
特征转换改变特征表示形式归一化(Min-Max)、标准化(Z-score)
编码类别将非数值特征转为数值性别{男,女} → One-Hot: [1,0], [0,1]

🍳比喻:特征工程就像“厨师处理食材”——把生肉、蔬菜加工成适合烹饪的形式,模型才能“消化吸收”。


六、文本表示:Token、向量化与Embedding

在NLP和大模型中,如何将文本转化为模型可理解的数字形式至关重要。

1. Tokenization(分词)

将文本切分为基本单元(Token),形式取决于任务需求:

粒度示例适用场景
字符级“机器学习” → [“机”,“器”,“学”,“习”]拼写纠错、小语种
子词级“unhappiness” → [“un”, “happi”, “ness”]BPE、WordPiece(如BERT、LLaMA)
单词级“I love AI.” → [“I”, “love”, “AI”, “.”]传统NLP任务
词组级“New York” → [“New York”]保留专有名词语义

🔑 每个 Token 会被映射为一个Token ID(整数),供模型内部使用。


2. Vectorization(向量化)

将 Token ID 转换为数值向量,使模型能进行数学运算。

  • 传统方法

    • One-Hot Encoding:稀疏、高维、无语义

    • Bag-of-Words (BoW):忽略词序

    • TF-IDF:衡量词的重要性

❌ 缺陷:无法捕捉语义相似性(如“猫”和“狗”在One-Hot中完全无关)


3. Embedding(嵌入)

一种低维、稠密、语义丰富的向量表示方法。

  • 核心思想:语义相近的词,其向量在空间中距离更近。

  • 代表方法

    • Word2Vec:通过上下文预测学习静态词向量 → “猫” ≈ “狗”,远于“石头”

    • BERT / Transformer-based动态上下文嵌入→ “苹果”在“吃苹果” vs “苹果手机”中向量不同!

🌐 Embedding 是大模型理解语言的基础,也是 Prompt Engineering、RAG 等技术的前提。


七、总结:构建完整的 ML 认知地图

维度关键要点
流程记忆(数据)→ 制定(建模)→ 预测(应用)
范式监督(有标签)、无监督(无标签)、强化(奖励驱动)
模型从线性回归(简单)到大模型(复杂),参数规模决定表达能力
数据特征工程是提升效果的关键杠杆
表示Token → ID → Vector → Embedding,文本理解的基石
http://www.jsqmd.com/news/497586/

相关文章:

  • 上海新锐品牌Lifenias:用酸枣百合滴鸡精拯救睡眠 - 中媒介
  • 测试结果验证测试:无限递归的俄罗斯套娃
  • 链表_必会面试题2
  • 数据库安全最后一公里:金仓SQL防火墙如何填平开发留下的注入坑
  • 1391、STM32单片机智能语音识别分类垃圾桶 超声波检测溢满报警 语音播报垃圾分类(程序+原理图+PCB文件+proteus仿真+参考论文+开题报告+原理图文字讲解+程序流程图+硬件框图+器件清单
  • 「龙虾」来了!OpenClaw如何掀起AI智能体革命
  • 东华复试day17
  • 挺黑色幽默的笑话
  • python-flask导师选择分配管理系统 _0spy6
  • 基于LangChain的RAG与Agent智能体开发 - OpenAI库介绍和使用
  • 四川大学团队破解“万能图像修复“难题
  • AOP相关面试题
  • 提示系统SQL优化从慢到快:架构师用提示工程实现查询响应速度提升10倍
  • 英集芯IP2391N支持低功耗Boost充电的微光能量收集芯片
  • PCB抄板技术全流程解析
  • 如何在Dev-C++中设置临时环境变量?
  • 【码道初阶-Hot100】LeetCode 438 + 567 对照详解:一套滑动窗口模板,彻底讲透“固定长度窗口 + 计数数组 + count维护”
  • 基于「YOLO目标检测 + 多模态AI分析」的热轧钢带表面缺陷检测分析系统
  • 24大数据 R语言代码合集
  • 爬虫对抗实战 - ZLibrary反爬机制分析与突破
  • Spring Boot 配置文件优先级机制
  • intel wifi AX200停用,无线连接都不能用。
  • 【第7篇】Mamba 100篇合集 · 从入门到天花板
  • SQL SERVER 登陆错误:18456
  • 虚拟实验室:物理化学实验的计算机模拟
  • 图的领接矩阵表示法
  • 软件文档管理中的权限控制机制
  • Android Developer的这段代码的注释(kotlin的类和对象
  • 如何评估大数据产品的用户满意度?
  • Day03——java基础语法