模型核心定位与目标
- 模型类型:GPT 类生成式 Transformer 模型
- 核心任务:预测下一个词 / 文本片段,生成新文本
- 学习方式:从大量文本数据中自动学习规律,用参数指导模型行为
输入处理全流程
1. 文本切分
- 输入文本被切分为小片段(token),可以是单词、子词单元
- 每个 token 是模型处理的最小单位
2. 嵌入向量(Embedding)
- 每个 token 对应一个向量(一组数字),用于编码该 token 的语义
- 语义相近的词,向量在高维空间中距离更近
- 嵌入矩阵:
- 形状:每行对应词汇表中一个词
- 初始状态:完全随机初始化
- 作用:存储每个 token 的基础语义向量
- 局限:原始嵌入仅编码单个词含义,无上下文信息
3. 向量更新机制
- 嵌入向量会随上下文信息动态改变
- 靠后续注意力模块完成上下文信息融合
模型核心计算与模块
1. 数据格式
- 输入最终转为实数向量 / 高维矩阵
- 模型内部参数称为权重(权值)
- 计算方式:矩阵乘法、加权和
2. 注意力机制(核心)
(1)作用
- 让 token 之间互相传递信息、更新自身值
- 自动判断:上下文哪些词重要、哪些无关
- 支持并行处理,而非按序列依次交流
(2)核心组件
- 查询(Query):编码 “我要找什么信息” 的向量
- 键(Key):编码 “我包含什么信息” 的向量
- 值(Value):最终用于更新的信息向量
- 维度示例:12288×12288 大矩阵,可做低秩分解优化
(3)计算流程
- 计算Query 与 Key 的点积,衡量匹配度
- 匹配度越高,权重越大;方向一致为正,相反为负
- 权重归一化,形成注意力分数(0~1,列和为 1)
- 用分数加权 Value,得到注意力输出
3. 掩码注意力(Masked Attention)
- 训练关键技巧:遮住后面的词
- 规则:用前面的词预测后面的词,禁止后面的词干扰前面
- 实现:注意力矩阵左下三角置 0,避免信息泄露
4. 数值稳定性优化
- 点积后除以维度平方根,防止数值过大
- 再输入 Softmax 做归一化
5. 网络结构
- 注意力层 + 前馈层(FFN)交替堆叠
- 多层叠加后,向量被完全编码上下文语义
- 模型有固定上下文长度限制,一次只能处理固定数量向量,过长会丢失早期信息
输出与预测过程
1. 最终输出
- 取最后一层的最后一个向量,用于预测下一个 token
- 输出:所有可能 token 的概率分布
2. 数学计算
- 最终向量 × 权重矩阵
- 过Softmax函数,把数值转为概率
- 得到:每个 token 接下来出现的概率
3. 生成控制(Temperature)
- 数值大:概率更均匀,生成更随机
- 数值小:高概率词占优势,生成更确定、更 “死板”