当前位置：首页 > news >正文

【论文学习】Transformer中的数据流动

news 2026/6/4 21:31:07

模型核心定位与目标

模型类型：GPT 类生成式 Transformer 模型
核心任务：预测下一个词 / 文本片段，生成新文本
学习方式：从大量文本数据中自动学习规律，用参数指导模型行为

输入处理全流程

1. 文本切分

输入文本被切分为小片段（token），可以是单词、子词单元
每个 token 是模型处理的最小单位

2. 嵌入向量（Embedding）

每个 token 对应一个向量（一组数字），用于编码该 token 的语义
语义相近的词，向量在高维空间中距离更近
嵌入矩阵：
- 形状：每行对应词汇表中一个词
- 初始状态：完全随机初始化
- 作用：存储每个 token 的基础语义向量
局限：原始嵌入仅编码单个词含义，无上下文信息

3. 向量更新机制

嵌入向量会随上下文信息动态改变
靠后续注意力模块完成上下文信息融合

模型核心计算与模块

1. 数据格式

输入最终转为实数向量 / 高维矩阵
模型内部参数称为权重（权值）
计算方式：矩阵乘法、加权和

2. 注意力机制（核心）

（1）作用

让 token 之间互相传递信息、更新自身值
自动判断：上下文哪些词重要、哪些无关
支持并行处理，而非按序列依次交流

（2）核心组件

查询（Query）：编码 “我要找什么信息” 的向量
- 计算：输入向量 × 矩阵 WQ 得到
键（Key）：编码 “我包含什么信息” 的向量
- 计算：输入向量 × 矩阵 WK 得到
值（Value）：最终用于更新的信息向量
- 维度示例：12288×12288 大矩阵，可做低秩分解优化

（3）计算流程

计算Query 与 Key 的点积，衡量匹配度
匹配度越高，权重越大；方向一致为正，相反为负
权重归一化，形成注意力分数（0~1，列和为 1）
用分数加权 Value，得到注意力输出

3. 掩码注意力（Masked Attention）

训练关键技巧：遮住后面的词
规则：用前面的词预测后面的词，禁止后面的词干扰前面
实现：注意力矩阵左下三角置 0，避免信息泄露

4. 数值稳定性优化

点积后除以维度平方根，防止数值过大
再输入 Softmax 做归一化

5. 网络结构

注意力层 + 前馈层（FFN）交替堆叠
多层叠加后，向量被完全编码上下文语义
模型有固定上下文长度限制，一次只能处理固定数量向量，过长会丢失早期信息

输出与预测过程

1. 最终输出

取最后一层的最后一个向量，用于预测下一个 token
输出：所有可能 token 的概率分布

2. 数学计算

最终向量 × 权重矩阵
过Softmax函数，把数值转为概率
得到：每个 token 接下来出现的概率

3. 生成控制（Temperature）

数值大：概率更均匀，生成更随机
数值小：高概率词占优势，生成更确定、更 “死板”

查看全文

http://www.jsqmd.com/news/650207/

C语言字符串处理实战：PTA敲笨钟题目保姆级解析（附完整代码）

How to Fix ‘pathspec main did not match any file(s) known to git‘ Error: A Step-by-Step Guide

深入解析Q_GLOBAL_STATIC：Qt线程安全单例模式的实现与优化

天津离婚纠纷律师姜春梅：深耕津门家事法以专业与温情守护婚姻权益｜咨询热线 400-0073-869 - 外贸老黄

告别原生丑界面：用QSS给你的Qt应用换个皮肤（附完整属性速查表）

【架构探讨】影刀 RPA 多实例并发场景下的数据一致性与锁机制实践

**梯度压缩实战：用PyTorch实现高效分布式训练中的通信优化**在大规模深度学习模型训练中，**梯度通信开销**往往成为性能瓶颈，

中国大学MOOC下载器：解决在线学习痛点的终极离线方案

T-POT蜜罐初体验：除了抓攻击，它的Cockpit和ELK面板怎么玩？

Java开发者别慌！用Spring Boot 3.4 + Ollama本地模型，5分钟搭建一个能调用外部工具的AI助手

2026年性价比高的陶瓷氧化铝供应商推荐，讲讲怎么选择 - 工业设备

Spine动画在Unity中的高效导入与播放实践

XML Notepad 终极指南：如何高效解决XML编辑的三大核心难题

用“最笨”的方法，我解决了最棘手的生产环境Bug

OmenSuperHub：惠普游戏本性能控制终极指南，轻松解锁硬件潜力

浅记vue3配合TS中定义数据及解析

2026年性价比高的美容院委托加工生产企业，哪家好值得关注 - mypinpai

2026年中国SRM市场深度解析：从147亿到205亿，采购数字化爆发

深聊板式换热器密封垫合作厂家，耐高压产品费用怎么算 - 工业品牌热点

UDP可靠性传输实战：RUDP、RTP、UDT三大协议深度解析

从RTL到应用：深入解析W1C寄存器的设计原理与实现

必收藏！2026 Agentic AI 工程师学习路线图（小白/程序员入门必备）

文泉驿微米黑字体：轻量级多语言字体解决方案的技术深度解析

数据量大查询慢？索引让你的SQL秒级响应！|转行学DB第9天

算法与数据结构之栈、队列

精读双模态视频融合论文系列十｜CVPR 2026 最新！VideoFusion 屠榜时空协同融合！跨模态差分增强 + 双向时序共注意力，缝合即涨点！

微信立减金批量回收最快方法 - 京顺回收

终极指南：如何突破Cursor免费限制，无限使用Pro功能

bypy技术架构解析：构建企业级百度云存储自动化管理系统

模型核心定位与目标

输入处理全流程

1. 文本切分

2. 嵌入向量（Embedding）

3. 向量更新机制

模型核心计算与模块

1. 数据格式

2. 注意力机制（核心）

（1）作用

（2）核心组件

（3）计算流程

3. 掩码注意力（Masked Attention）

4. 数值稳定性优化

5. 网络结构

输出与预测过程

1. 最终输出

2. 数学计算

3. 生成控制（Temperature）

相关文章：