当前位置: 首页 > news >正文

【论文学习】Transformer中的数据流动

模型核心定位与目标

  • 模型类型:GPT 类生成式 Transformer 模型
  • 核心任务预测下一个词 / 文本片段,生成新文本
  • 学习方式:从大量文本数据中自动学习规律,用参数指导模型行为

输入处理全流程

1. 文本切分

  • 输入文本被切分为小片段(token),可以是单词、子词单元
  • 每个 token 是模型处理的最小单位

2. 嵌入向量(Embedding)

  • 每个 token 对应一个向量(一组数字),用于编码该 token 的语义
  • 语义相近的词,向量在高维空间中距离更近
  • 嵌入矩阵
    • 形状:每行对应词汇表中一个词
    • 初始状态:完全随机初始化
    • 作用:存储每个 token 的基础语义向量
  • 局限:原始嵌入仅编码单个词含义无上下文信息

3. 向量更新机制

  • 嵌入向量会随上下文信息动态改变
  • 靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

  • 输入最终转为实数向量 / 高维矩阵
  • 模型内部参数称为权重(权值)
  • 计算方式:矩阵乘法、加权和

2. 注意力机制(核心)

(1)作用
  • 让 token 之间互相传递信息、更新自身值
  • 自动判断:上下文哪些词重要、哪些无关
  • 支持并行处理,而非按序列依次交流
(2)核心组件
  • 查询(Query):编码 “我要找什么信息” 的向量
    • 计算:输入向量 × 矩阵 WQ​ 得到
  • 键(Key):编码 “我包含什么信息” 的向量
    • 计算:输入向量 × 矩阵 WK​ 得到
  • 值(Value):最终用于更新的信息向量
    • 维度示例:12288×12288 大矩阵,可做低秩分解优化
(3)计算流程
  1. 计算Query 与 Key 的点积,衡量匹配度
  2. 匹配度越高,权重越大;方向一致为正,相反为负
  3. 权重归一化,形成注意力分数(0~1,列和为 1)
  4. 用分数加权 Value,得到注意力输出

3. 掩码注意力(Masked Attention)

  • 训练关键技巧:遮住后面的词
  • 规则:用前面的词预测后面的词,禁止后面的词干扰前面
  • 实现:注意力矩阵左下三角置 0,避免信息泄露

4. 数值稳定性优化

  • 点积后除以维度平方根,防止数值过大
  • 再输入 Softmax 做归一化

5. 网络结构

  • 注意力层 + 前馈层(FFN)交替堆叠
  • 多层叠加后,向量被完全编码上下文语义
  • 模型有固定上下文长度限制,一次只能处理固定数量向量,过长会丢失早期信息

输出与预测过程

1. 最终输出

  • 取最后一层的最后一个向量,用于预测下一个 token
  • 输出:所有可能 token 的概率分布

2. 数学计算

  1. 最终向量 × 权重矩阵
  2. Softmax函数,把数值转为概率
  3. 得到:每个 token 接下来出现的概率

3. 生成控制(Temperature)

  • 数值大:概率更均匀,生成更随机
  • 数值小:高概率词占优势,生成更确定、更 “死板”
http://www.jsqmd.com/news/650207/

相关文章:

  • C语言字符串处理实战:PTA敲笨钟题目保姆级解析(附完整代码)
  • How to Fix ‘pathspec main did not match any file(s) known to git‘ Error: A Step-by-Step Guide
  • 深入解析Q_GLOBAL_STATIC:Qt线程安全单例模式的实现与优化
  • 天津离婚纠纷律师 姜春梅:深耕津门家事法 以专业与温情守护婚姻权益|咨询热线 400-0073-869 - 外贸老黄
  • 告别原生丑界面:用QSS给你的Qt应用换个皮肤(附完整属性速查表)
  • 【架构探讨】影刀 RPA 多实例并发场景下的数据一致性与锁机制实践
  • **梯度压缩实战:用PyTorch实现高效分布式训练中的通信优化**在大规模深度学习模型训练中,**梯度通信开销**往往成为性能瓶颈,
  • 中国大学MOOC下载器:解决在线学习痛点的终极离线方案
  • T-POT蜜罐初体验:除了抓攻击,它的Cockpit和ELK面板怎么玩?
  • Java开发者别慌!用Spring Boot 3.4 + Ollama本地模型,5分钟搭建一个能调用外部工具的AI助手
  • 2026年性价比高的陶瓷氧化铝供应商推荐,讲讲怎么选择 - 工业设备
  • Spine动画在Unity中的高效导入与播放实践
  • XML Notepad 终极指南:如何高效解决XML编辑的三大核心难题
  • 用“最笨”的方法,我解决了最棘手的生产环境Bug
  • OmenSuperHub:惠普游戏本性能控制终极指南,轻松解锁硬件潜力
  • 浅记vue3配合TS中定义数据及解析
  • 2026年性价比高的美容院委托加工生产企业,哪家好值得关注 - mypinpai
  • 2026年中国SRM市场深度解析:从147亿到205亿,采购数字化爆发
  • 深聊板式换热器密封垫合作厂家,耐高压产品费用怎么算 - 工业品牌热点
  • UDP可靠性传输实战:RUDP、RTP、UDT三大协议深度解析
  • 从RTL到应用:深入解析W1C寄存器的设计原理与实现
  • 必收藏!2026 Agentic AI 工程师学习路线图(小白/程序员入门必备)
  • 文泉驿微米黑字体:轻量级多语言字体解决方案的技术深度解析
  • 数据量大查询慢?索引让你的SQL秒级响应!|转行学DB第9天
  • 算法与数据结构之栈、队列
  • 精读双模态视频融合论文系列十|CVPR 2026 最新!VideoFusion 屠榜时空协同融合!跨模态差分增强 + 双向时序共注意力,缝合即涨点!
  • 微信立减金批量回收最快方法 - 京顺回收
  • 2026年导视系统厂家最新推荐榜/宣传栏,发光字,展厅广告,落地烤漆字,不锈钢发光字 - 品牌策略师
  • 终极指南:如何突破Cursor免费限制,无限使用Pro功能
  • bypy技术架构解析:构建企业级百度云存储自动化管理系统