当前位置: 首页 > news >正文

【Qwen2.5】采用 RoPE、SwiGLU、RMSNorm、Attention QKV bias 和 tied word embeddings 的 transformers 结构

原文

This repo contains the instruction-tuned 0.5B Qwen2.5 model, which has the following features:

  • Type: Causal Language Models
  • Training Stage: Pretraining & Post-training
  • Architecture: transformers with RoPE, SwiGLU, RMSNorm, Attention QKV bias and tied word embeddings
  • Number of Parameters: 0.49B
  • Number of Paramaters (Non-Embedding): 0.36B
  • Number of Layers: 24
  • Number of Attention Heads (GQA): 14 for Q and 2 for KV
  • Context Length: Full 32,768 tokens and generation 8192 tokens

For more details, please refer to our blog, GitHub, and Documentation.

5 个组件

文章目录

  • 原文
  • 5 个组件
      • 1. RoPE (Rotary Positional Embedding)
      • 2. SwiGLU (Swish-Gated Linear Unit)
      • 3. RMSNorm (Root Mean Square Layer Normalization)
      • 4. Attention QKV Bias
      • 5. Tied Word Embeddings (权重共享)
      • 总结对比表
      • 结论

与所熟知的“原始” Transformer(即 2017 年《Attention Is All You Need》中的标准架构)相比,Qwen2.5 使用的这 5 个组件都有显著不同或增强。

但这并不意味着“标准 Transformer”不能用这些,而是说这些组件代表了现代高性能 LLM 的工业标准配置,它们解决了标准 Transformer 在深度训练稳定性、计算效率和大模型扩展性上的痛点。

下面逐一解析这五个模块与原始 Transformer的区别:

1. RoPE (Rotary Positional Embedding)

  • 原始 Transformer: 使用绝对位置编码(Absolute Positional Encoding)。直接给每个位置的向量加上一个固定的正弦/余弦向量。这种编码方式难以处理训练长度和推理长度不一致的情况,也不具备良好的外推性。
  • Qwen2.5 (RoPE): 使用旋转位置编码。它将位置信息编码为旋转矩阵,使得向量之间的相对位置关系能够被模型更好地捕捉。
    • 优势: 支持更好的长上下文外推(Extrapolation),即训练时看 32k,推理时看 128k 效果衰减较小;符合物理直觉(相对距离不变)。

2. SwiGLU (Swish-Gated Linear Unit)

  • 原始 Transformer: 使用标准的前馈神经网络(FFN),结构通常是Linear -> ReLU/GELU -> Linear。也就是两层全连接层中间夹一个激活函数。
  • Qwen2.5 (SwiGLU): 使用了门控线性单元结构。
    • 标准 FFN:W 2 ⋅ GELU ( W 1 ⋅ x ) W_2 \cdot \text{GELU}(W_1 \cdot x)W2GELU(W1x)
    • SwiGLU FFN:W 2 ⋅ Swish ( W 1 ⋅ x ) ⊙ ( W 3 ⋅ x ) W_2 \cdot \text{Swish}(W_1 \cdot x) \odot (W_3 \cdot x)W2Swish(W1x)(W3x)
    • 注意:它多了一个投影矩阵W 3 W_3W3,并且激活函数变成了 Swish(或 SiLU)。
    • 优势: 研究表明,SwiGLU 在大规模预训练中的表现显著优于标准的 GELU/ReLU FFN,能带来更高的参数量利用率。

3. RMSNorm (Root Mean Square Layer Normalization)

  • 原始 Transformer:没有明确的 LayerNorm 标准化步骤(原始论文中在 Encoder/Decoder 内部使用了残差连接后的标准化,但在后续演进中 LayerNorm 成为标配)。即使后来引入了 LayerNorm,它也是减去均值并除以标准差。
  • Qwen2.5 (RMSNorm): 使用 RMSNorm。它去掉了 LayerNorm 中的“减去均值”这一步,只除以均方根(Root Mean Square)。
    • 公式差异: LayerNorm 计算μ \muμσ \sigmaσ,RMSNorm 只计算1 n ∑ x i 2 \sqrt{\frac{1}{n}\sum x_i^2}n1xi2
    • 优势: 计算更简单、更快(少了一次减法运算),且在现代大模型中证明效果与 LayerNorm 相当甚至更好,尤其在深层网络中更稳定。

4. Attention QKV Bias

  • 原始 Transformer: 在 Multi-Head Attention 的 Query, Key, Value 线性变换中,通常不使用 Bias。原始论文为了保持注意力机制的平移不变性和计算简洁性,去掉了 Bias。
  • Qwen2.5 (QKV Bias): 在生成 Q、K、V 的线性层中加入了 Bias
    • 优势: 对于某些模型架构和训练策略,加入 Bias 有助于模型更快地收敛,或者在微调阶段提供额外的表达能力。虽然理论上注意力机制对 Bias 不敏感,但在实际大模型训练中,这是一个常见的工程优化选择。

5. Tied Word Embeddings (权重共享)

  • 原始 Transformer:输出层的权重矩阵与输入的词嵌入(Embedding)矩阵是共享的。即,如果你有一个V × d V \times dV×d的词嵌入矩阵,输出层也是用这个矩阵的转置来映射回词汇表。
  • Qwen2.5:也使用了 Tied Embeddings
    • 优势: 可以大幅减少参数量。对于较小的模型(如 0.5B, 1.5B),嵌入层的参数量占比很高,共享权重可以节省约 10%-20% 的总参数量,同时保持性能。这也是为什么你的文档中提到“Number of Paramaters: 0.49B”,但“Non-Embedding: 0.36B”,说明嵌入层占了约 0.13B 的参数。

总结对比表

模块原始 Transformer (2017)Qwen2.5 / 现代 LLM 标准主要改进目的
位置编码绝对位置编码 (Sin/Cos)RoPE更好的长文本外推性、相对位置感知
FFN 激活GELU / ReLU (全连接)SwiGLU(门控)更强的非线性表达能力、训练更稳定
层归一化(原始无,后期加 LayerNorm)RMSNorm计算更快、内存占用更少、深层训练更稳
Attention Bias无 Bias有 QKV Bias微调灵活性、潜在的性能微调增益
Embedding 权重共享(Tied)共享(Tied)节省参数,对小模型尤其重要

结论

看到的这些配置,实际上是当前最先进的开源大语言模型(如 Llama 3, Qwen, Mistral 等)的标准技术栈

它们不是“错误”,而是经过多年实践验证的最优解组合。如果你是在复现或对比实验,直接使用这些现代组件通常会比“原始 Transformer”获得更好的效果,尤其是对于小参数模型(如 0.5B)而言,SwiGLU 和 RMSNorm 的贡献尤为关键。

http://www.jsqmd.com/news/884664/

相关文章:

  • 鸿蒙HarmonyOS 5与Unity跨运行时通信实战指南
  • 在C++中正确处理日期字符串排序的方法
  • 搭建自动化内容生成流水线并利用Taotoken统一调度AI模型
  • 工业洗地机什么牌子好用?从需求出发选对设备 - 品牌排行榜
  • 如何实现智能AutoCAD字体管理:FontCenter免费解决方案完整指南
  • 3大突破性功能:用HiveWE革新你的魔兽争霸III地图创作体验
  • 原子尺度机器学习互操作性:metatensor与metatomic重塑计算化学工作流
  • 5.25中山黄金回收,哪家靠谱?附门店推荐 - 资讯纵览
  • C++ 标准库中的reverse 函数使用示例
  • 国产大模型新王登基?Qwen3.7-Max全球第五、编程Agent登顶,千问APP免费体验全攻略
  • 如何用douyin-downloader轻松实现抖音内容批量下载与整理
  • AI搜索正在“点名”推荐旅行社,这个GEO案例太猛了 - 品牌背书
  • QTcp网络通信
  • 终极指南:如何用WarcraftHelper让魔兽争霸3在现代电脑上焕发新生 [特殊字符]
  • 模式分层预测驱动推断:处理复杂缺失数据的统计新框架
  • 抖音下载效率革命:douyin-downloader批量下载解决方案
  • 网易云音乐还能这样玩?5分钟解锁插件生态,彻底告别单调播放器
  • 独立开发者如何利用 Taotoken 多模型能力低成本构建 AI 应用原型
  • 自然语言处理的实战项目:从0到1搭建属于自己的文本分类系统
  • 熟食摊创业卖烤鸭必备:靠谱烤鸭成品料厂家电话推荐 - 品牌2025
  • 哪款台灯护眼效果最好孩子用?实测口碑爆款护眼灯品牌,买前必看
  • 华为软挑实战:用双向A*算法搞定200x200网格地图寻路(附C++/Python/Matlab代码)
  • D2DX如何让暗黑破坏神2在4K显示器上流畅运行:5个关键技术解析
  • 连锁不平衡分析终极指南:如何用LDBlockShow快速生成专业级基因组可视化图表
  • 2026年蚌埠滨湖蓝湾附近中介推荐榜--靠谱(排名前十) - 资讯纵览
  • 2001-2025年A股上市公司分行业分地区主营业务构成
  • 浮动布局的自动换行机制
  • ncmdumpGUI终极指南:深度解析网易云音乐NCM加密文件转换技术
  • Fiddler手机断网真相:TLS握手与证书固定的协议级拦截
  • 绩效评估方法