当前位置: 首页 > news >正文

机器学习与模式识别 第十七章 Transformers LLMs 考点压缩

第十七章:Transformers & LLMs — 知识点笔记

综合来源:Lecture 17 PDF(35页)、课堂笔记(CSDN)


占位图

17.1 LLM概述

什么是LLM

  • Large:参数量巨大(数十亿→万亿级)
  • Language Model:预测语言(下一词)
  • 预测下一个词 = 回答问题 + 讲故事 + 完成任务 =生成式AI

17.2 Tokenization ⭐

Token vs Word

  • Token = 词、词缀、标点、特殊字符
  • “The smallest tokenizer!” → [“The”, " small", “est”, " token", “izer”, “!”]
  • 优势:允许处理新词/拼写错误/数字

BPE(Byte Pair Encoding)⭐

  1. 初始token集=所有字符+数字+特殊字符
  2. 统计语料中最高频的token对→合并为新token
  3. 重复→直到达到目标词汇量
  4. 例:Llama-2: 32K → Llama-3:128Ktokens

17.3 因果语言建模 ⭐⭐

Causal Language Modeling

P(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next tokencontext tokens)

  • 条件于之前的所有token(有序上下文)
  • 一次生成一个token
  • “The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大

自回归解码(Auto-Regressive Decoding)

  1. 计算下一token的概率分布
  2. 选择下一token(最大概率/采样top-k)
  3. 将选中token追加到上下文
  4. 重复→直到<stop>token

一次一个token→逐步生成完整文本!


17.4 Decoder Transformer ⭐⭐

Encoder的问题

  • 标准Self-Attention→所有token互相可见→生成时"偷看"答案
  • 不适合因果(自回归)生成

Masked Attention(因果掩码)

  • 只允许关注当前及之前的token(不能看到未来)
  • 上三角掩码→−∞-\infty→Softmax后权重为0
    α=SoftMax(QKTDk+M)\boldsymbol{\alpha} = \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} + \mathbf{M}\right)α=SoftMax(DkQKT+M)

Mij={0i≥j−∞i<j\mathbf{M}_{ij} = \begin{cases} 0 & i \geq j \\ -\infty & i < j \end{cases}Mij={0iji<j

Decoder展开

  • 每次新token加入→整个序列重新计算
  • 但可缓存之前的K,V→KV Cache加速
  • 最后一个token计算量最大(需attend所有历史)

17.5 Llama-3架构 ⭐

RMSNorm → Grouped Query Attention (+RoPE) → +残差 → RMSNorm → FFN with SwiGLU → +残差
组件说明
RMSNormLayerNorm的简化版→训练稳定
GQAGrouped Query Attention→效率+表达力
RoPERotary Position Embedding→融入Q,K的旋转位置编码
SwiGLU门控FFN激活函数
残差连接梯度直通

规模(Llama-3 70B)

  • Hidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 8

17.6 Encoder-Decoder vs Decoder-Only

架构结构代表模型
Encoder-Only双向AttentionBERT
Encoder-Decoder编码+解码+Cross-Attention原版Transformer, T5, BART
Decoder-Only仅Masked AttentionGPT系列, Llama(现代主流)

LLM演进时间线

2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)

笔记中的图片索引

序号图片内容描述来源位置
图1BPE构建过程Lecture 17 第7页
图2自回归解码逐步生成Lecture 17 第13-18页
图3Masked Attention因果掩码Lecture 17 第24-25页
图4Llama-3架构图Lecture 17 第31页
图5Encoder-Decoder结构Lecture 17 第33页
图6LLM演进时间线Lecture 17 第34页

笔记整理时间:2026年6月30日

http://www.jsqmd.com/news/1128800/

相关文章:

  • TVA对具身智能领域“莫拉维克悖论“的挑战(11)
  • 深耕 XR 安卓底软开发:Framework 定制、渲染优化与系统稳定性实战
  • 3分钟掌握Android投屏神器:scrcpy让你的手机屏幕完美显示在电脑上
  • API网关是微服务架构中的关键组件,位于客户端与后端服务之间,承担统一入口、流量治理和安全管控等职责
  • 魔兽争霸III现代兼容性终极指南:用WarcraftHelper轻松解决闪退卡顿问题
  • 乡村的毛细血管:Nature Trace Farmscapes 2020 Vectorised 数据集
  • 基于51单片机的温度烟雾火灾报警系统—LCD1602显示,ADC0809模数转换
  • CSDN热榜预定!这篇DuckDB教程让我涨粉3000+
  • AUTOSAR VFB介绍
  • [学习方法论]掌握数据结构的长效记忆法
  • Ultralytics:解读C1模块
  • Unity Mod Manager终极指南:3步搞定Unity游戏模组安装与管理
  • TotalSegmentator:如何快速实现医学图像中117个解剖结构的自动分割?
  • OneNote专业迁移指南:终极免费工具助你无损转换到Markdown
  • TVA推动物理AI的具身智能革命(2)
  • AI基础0-人工智能的数学基础
  • Office 365中的Custom Shell详细功能介绍
  • Plone系统卸载指南:PSE2010环境下安全Unload操作详解
  • MAA明日方舟助手:5个核心功能实现游戏日常自动化终极指南
  • JavaWeb快速入门:Maven核心功能详解——标准项目结构、构建流程与依赖管理
  • Herbie:Python中的高效天气数据下载利器
  • Serverless(无服务器架构)与传统架构(如单体应用、虚拟机或容器化部署)在设计理念、运维模式、成本模型、扩展性及适用场景等方面存在显著差异
  • Node.js 图片压缩服务:小产品也要管住队列和失败
  • Token 驱动 Agent 闭环落地:跳出 AI 低价内卷,开发者高阶商业化完整方案
  • Kubernetes 系列【4】基础概念
  • OpenCV中的「SVM分类器」:从理论到实战,手把手教你构建图像分类模型
  • 【每天认识一个国家 | 荷兰】
  • ClamAV – 开源跨平台反病毒引擎
  • COCOMO(Constructive Cost Model)基本模型是一种用于估算软件开发工作量的经验模型
  • 场景机制低帧怎么定位:半透明门、遮挡体、隐藏物件与 LOD 的联合排查