当前位置: 首页 > news >正文

AI精读《Attention Is All You Need》

Attention Is All You Need

论文信息

项目内容
标题Attention Is All You Need
作者Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
机构Google Brain, Google Research, University of Toronto
发表NeurIPS 2017
引用Vaswani et al. (2017). “Attention Is All You Need”.Advances in Neural Information Processing Systems.

📝 摘要 (Abstract)

本文提出Transformer—— 一种全新的网络架构,完全基于注意力机制,摒弃了循环和卷积。

核心贡献:

  • 提出 Transformer 架构,仅使用注意力机制
  • 在机器翻译任务上达到 state-of-the-art
  • 训练效率大幅提升(12 小时,8 个 P100 GPU)
  • 解决了序列建模中的长距离依赖问题

1️⃣ 引言 (Introduction)

背景问题

传统的序列模型(RNN、LSTM、GRU)存在以下限制:

问题描述
顺序计算无法并行化处理序列
长距离依赖距离越远,依赖关系越难学习
训练效率低序列长度限制 batch 大小

Transformer 的优势

RNN/LSTM: 输入 → [RNN] → [RNN] → [RNN] → 输出 (顺序处理) Transformer: 输入 → [Self-Attention] → 输出 (并行处理)

2️⃣ 背景 (Background)

2.1 减少顺序计算的努力

模型方法距离复杂度
Extended Neural GPU卷积O(1)
ByteNet卷积O(log n)
ConvS2S卷积O(n)
Transformer自注意力O(1)

2.2 注意力机制

自注意力 (Self-Attention):关联同一序列中不同位置,计算序列的表示。

已成功应用于:

  • 阅读理解
  • 抽象摘要
  • 文本蕴含
  • 句子表示学习

3️⃣ 模型架构 (Model Architecture)

3.1 整体结构

┌─────────────────────────────────────┐ │ Decoder Stack │ │ ┌───────────┐ ┌───────────┐ │ │ │ Add&Norm │ │ Add&Norm │ │ │ │ ↑ │ │ ↑ │ │ │ │ Multi-Head│ │ Multi-Head│ │ │ │ Attention │ │ Attention │ │ │ │ ↑ │ │ ↑ │ │ │ └───────────┘ │ Encoder │ │ │ │ Output │ │ └─────────────────┴───────────────────┘ ↑ ┌──────────────┐ │Encoder Stack │ │ ┌────────┐ │ │ │Add&Norm│ │ │ │ ↑ │ │ │ │Multi- │ │ │ │Head │ │ │ │Attention│ │ │ │ ↑ │ │ │ │Position│ │ │ │Feed │ │ │ │Forward │ │ │ └────────┘ │ └──────────────┘ ↑ Input Embeddings + Positional Encoding

3.2 编码器 - 解码器架构

组件层数功能
Encoder6 层处理输入序列
Decoder6 层生成输出序列
每层子层2 个Multi-Head Attention + Feed Forward

3.3 注意力函数

Scaled Dot-Product Attention:

Attention(Q, K, V) = softmax(QK^T / √d_k) V
符号含义维度
QQueryn × d_k
KKeym × d_k
VValuem × d_v
d_kKey 维度64
d_vValue 维度64

3.4 多头注意力 (Multi-Head Attention)

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O where head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

参数:

  • h = 8 (头数)
  • d_model = 512
  • d_k = d_v = d_model/h = 64

优势:

  • 并行关注不同位置的信息
  • 增强模型表示能力

3.5 位置编码 (Positional Encoding)

由于 Transformer 没有循环/卷积,需要注入位置信息:

PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

4️⃣ 为什么用自注意力 (Why Self-Attention)

计算复杂度对比

层类型每层复杂度顺序操作最大路径长度
Self-AttentionO(n²·d)O(1)O(1)
RecurrentO(n·d²)O(n)O(n)
ConvolutionalO(k·n·d²)O(1)O(log_k n)

结论:自注意力在长距离依赖学习上更高效。


5️⃣ 训练细节 (Training)

数据集

数据集语言对训练集大小
WMT 2014英语→德语4.5M 句对
WMT 2014英语→法语36M 句对

硬件与时间

配置训练时间
8 × P100 GPU12 小时 (base)
8 × P100 GPU3.5 天 (big)

优化器

Adam optimizer: β₁=0.9, β₂=0.98, ε=10⁻⁹ 学习率调度:warmup + decay

正则化

  • Dropout (P_drop = 0.1)
  • Label Smoothing (ε_ls = 0.1)
  • Weight Decay

6️⃣ 实验结果 (Results)

机器翻译性能

模型BLEU (EN-DE)BLEU (EN-FR)训练成本
ByteNet23.75--
ConvS2S25.1640.46-
GNMT+RL24.639.92-
MoE26.0340.56-
Transformer (base)27.338.112 小时
Transformer (big)28.441.83.5 天

消融实验

变体BLEU (EN-DE)
Transformer (big)28.4
No LayerNorm24.5
Single Head Attention26.9
Limited Positional Encoding27.5

7️⃣ 注意力可视化 (Attention Visualization)

示例:自注意力模式

输入:The animal didn't cross the street because it was too tired. ↓ 注意力:"it" → "animal" (高权重)

发现:

  • 模型能学习长距离依赖
  • 不同头关注不同语法关系
  • 可以捕捉句法结构

8️⃣ 结论 (Conclusion)

主要贡献

  1. ✅ 提出 Transformer —— 首个完全基于注意力的 transduction 模型
  2. ✅ 在机器翻译任务上达到 SOTA
  3. ✅ 训练效率显著提升
  4. ✅ 解决了长距离依赖问题

未来方向

  • 应用到其他 NLP 任务
  • 探索更大的模型
  • 研究多模态应用

📚 参考文献 (References)

  1. [Bahdanau et al., 2014] Neural Machine Translation by Jointly Learning to Align and Translate
  2. [Vaswani et al., 2017] Attention Is All You Need (原始论文)
  3. [Devlin et al., 2018] BERT: Pre-training of Deep Bidirectional Transformers
  4. [Radford et al., 2018] Improving Language Understanding by Generative Pre-Training

🔑 关键公式汇总

Scaled Dot-Product Attention

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Multi-Head Attention

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

Positional Encoding

PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

Layer Normalization

LayerNorm(x) = γ ⊙ (x - μ) / σ + β

Markdown 转换完成 | 基于《Attention Is All You Need》PDF 内容提取与整理

http://www.jsqmd.com/news/477835/

相关文章:

  • Windows11高效开发:WSL2配置与实战指南
  • YOLOv8性能跃迁 | 集成GAM注意力机制实战指南
  • 别再卷前端 UI 了!未来万亿级用户的产品,根本没有界面
  • Qwen2.5-VL-7B-Instruct入门必看:从零搭建本地多模态AI助手(含start.sh详解)
  • 7. 基于Docker实现frp内网穿透
  • NCRE Python真题精讲:从高频考点到实战避坑指南
  • Youtu-Parsing服务高可用架构设计:负载均衡与故障转移实战
  • Jupyter Notebook快速入门:从安装到高效编码全指南
  • Stable Yogi Leather-Dress-Collection开源模型实战:2.5D皮衣生成技术深度拆解
  • Ubuntu系统下tmux的安装与基础会话管理
  • gte-base-zh效果对比:与其他开源嵌入模型的横向评测
  • 拉格朗日多项式插值法:从理论推导到Python实现
  • 通义千问1.5-1.8B-Chat-GPTQ-Int4助力.NET开发者:C#调用AI模型API实战
  • 高效大麦网自动抢票工具全流程配置与实战指南
  • 创维黄宏生:指望人形机器人做性伴侣不现实
  • Qwen-Image-2512与LangChain集成:自然语言处理与图像生成
  • 快速体验AI人脸隐私卫士:上传图片秒级自动打码
  • 别再租用别人的大脑:OpenClaw 与 AI 的“本地控制权”
  • SkillDeck 支持 OpenClaw 了,顺便聊聊小龙虾
  • CodeCombat 私有化部署实战:从零搭建编程游戏学习环境
  • 深度学习项目训练环境中的软件包管理最佳实践
  • RexUniNLU效果实测:零标注数据,精准识别新闻中的实体与关系
  • Apollo4 Blue 开发指南:从硬件配置到低功耗蓝牙应用
  • 非计算机专业转行AI大模型必看!雷军说站在风口猪都能飞,零基础如何拿年薪30K?
  • 雯雯的后宫-造相Z-Image-瑜伽女孩提示词模板:‘瑜伽女孩+体式+环境+光影+风格’五维结构
  • 三相桥式全控整流电路在Simulink中的动态仿真与触发角优化分析
  • FineReport单元格扩展与父子格设置实战:从基础配置到高级应用
  • 四大主流机器人仿真平台力控能力横向评测:从入门到精通的选型指南
  • CLIP-GmP-ViT-L-14应用落地:新闻配图相关性检测、虚假信息图文一致性核查
  • Gemma-3-12b-it多模态交互工具参数详解:batch_size/max_new_tokens调优