当前位置：首页 > news >正文

Transformer 架构深度解析：从注意力机制到完整实现

news 2026/5/12 8:33:41

Transformer 架构深度解析：从注意力机制到完整实现

1. 技术分析

1.1 Transformer 架构概述

Transformer 是基于自注意力机制的序列建模架构：

Transformer 整体架构 Encoder (N层) Decoder (N层) ┌─────────────────┐ ┌─────────────────┐ │ Self-Attention │ │ Self-Attention │ │ + Add & Norm │ │ + Add & Norm │ ├─────────────────┤ ├─────────────────┤ │ Feed Forward │ │ Enc-Dec Attention│ │ + Add & Norm │ │ + Add & Norm │ └────────┬────────┘ ├─────────────────┤ │ │ Feed Forward │ │ │ + Add & Norm │ ▼ └────────┬────────┘ Embedding + Positional ┌───────┴───────┐ ───────────────────────────────►│ Linear + Softmax│ └────────────────┘

1.2 核心组件对比

组件	作用	复杂度
多头注意力	捕捉不同位置关系	O(n²d)
前馈网络	非线性变换	O(nd²)
层归一化	稳定训练	O(nd)
残差连接	梯度传播	O(nd)

1.3 注意力机制公式

# Scaled Dot-Product Attention Attention(Q, K, V) = softmax(QK^T / √d_k)V # Multi-Head Attention MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O where head_i = Attention(QW^Q_i, KW^K_i, VW^V_i)

2. 核心功能实现

2.1 多头注意力实现

import torch import torch.nn as nn import torch.nn.functional as F class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super().__init__() self.d_model = d_model self.num_heads = num_heads self.d_k = d_model // num_heads self.W_q = nn.Linear(d_model, d_model) self.W_k = nn.Linear(d_model, d_model) self.W_v = nn.Linear(d_model, d_model) self.W_o = nn.Linear(d_model, d_model) def scaled_dot_product_attention(self, Q, K, V, mask=None): scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(self.d_k, dtype=torch.float32)) if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) attn_weights = F.softmax(scores, dim=-1) output = torch.matmul(attn_weights, V) return output, attn_weights def split_heads(self, x, batch_size): return x.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) def forward(self, Q, K, V, mask=None): batch_size = Q.size(0) Q = self.split_heads(self.W_q(Q), batch_size) K = self.split_heads(self.W_k(K), batch_size) V = self.split_heads(self.W_v(V), batch_size) output, attn_weights = self.scaled_dot_product_attention(Q, K, V, mask) output = output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model) output = self.W_o(output) return output, attn_weights

2.2 Transformer Encoder 实现

class PositionWiseFeedForward(nn.Module): def __init__(self, d_model, d_ff, dropout=0.1): super().__init__() self.fc1 = nn.Linear(d_model, d_ff) self.fc2 = nn.Linear(d_ff, d_model) self.dropout = nn.Dropout(dropout) def forward(self, x): return self.fc2(self.dropout(F.relu(self.fc1(x)))) class EncoderLayer(nn.Module): def __init__(self, d_model, num_heads, d_ff, dropout=0.1): super().__init__() self.self_attn = MultiHeadAttention(d_model, num_heads) self.feed_forward = PositionWiseFeedForward(d_model, d_ff, dropout) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) self.dropout1 = nn.Dropout(dropout) self.dropout2 = nn.Dropout(dropout) def forward(self, x, mask=None): attn_output, _ = self.self_attn(x, x, x, mask) x = self.norm1(x + self.dropout1(attn_output)) ff_output = self.feed_forward(x) x = self.norm2(x + self.dropout2(ff_output)) return x class TransformerEncoder(nn.Module): def __init__(self, vocab_size, d_model, num_heads, d_ff, num_layers, dropout=0.1): super().__init__() self.embedding = nn.Embedding(vocab_size, d_model) self.positional_encoding = PositionalEncoding(d_model, dropout) self.layers = nn.ModuleList([EncoderLayer(d_model, num_heads, d_ff, dropout) for _ in range(num_layers)]) def forward(self, x, mask=None): x = self.embedding(x) * torch.sqrt(torch.tensor(self.embedding.embedding_dim, dtype=torch.float32)) x = self.positional_encoding(x) for layer in self.layers: x = layer(x, mask) return x

2.3 Transformer Decoder 实现

class DecoderLayer(nn.Module): def __init__(self, d_model, num_heads, d_ff, dropout=0.1): super().__init__() self.self_attn = MultiHeadAttention(d_model, num_heads) self.cross_attn = MultiHeadAttention(d_model, num_heads) self.feed_forward = PositionWiseFeedForward(d_model, d_ff, dropout) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) self.norm3 = nn.LayerNorm(d_model) self.dropout1 = nn.Dropout(dropout) self.dropout2 = nn.Dropout(dropout) self.dropout3 = nn.Dropout(dropout) def forward(self, x, enc_output, src_mask=None, tgt_mask=None): attn_output, _ = self.self_attn(x, x, x, tgt_mask) x = self.norm1(x + self.dropout1(attn_output)) cross_attn_output, _ = self.cross_attn(x, enc_output, enc_output, src_mask) x = self.norm2(x + self.dropout2(cross_attn_output)) ff_output = self.feed_forward(x) x = self.norm3(x + self.dropout3(ff_output)) return x class Transformer(nn.Module): def __init__(self, src_vocab_size, tgt_vocab_size, d_model, num_heads, d_ff, num_layers, dropout=0.1): super().__init__() self.encoder = TransformerEncoder(src_vocab_size, d_model, num_heads, d_ff, num_layers, dropout) self.decoder = TransformerDecoder(tgt_vocab_size, d_model, num_heads, d_ff, num_layers, dropout) self.fc = nn.Linear(d_model, tgt_vocab_size) def forward(self, src, tgt, src_mask=None, tgt_mask=None): enc_output = self.encoder(src, src_mask) dec_output = self.decoder(tgt, enc_output, src_mask, tgt_mask) output = self.fc(dec_output) return output

3. 性能对比

3.1 Transformer vs RNN 对比

指标	Transformer	RNN	差异
并行能力	高	低	O(n) vs O(n²)
长依赖	好	差	注意力机制
计算复杂度	O(n²d)	O(nd²)	序列长度 vs 维度
内存占用	高	中	注意力矩阵

3.2 多头注意力效果

头数	效果	计算开销
1	基线	低
4	较好	中
8	很好	高
16	最佳	很高

3.3 层数影响

层数	模型容量	训练难度	推理速度
6	中	低	快
12	高	中	中
24	很高	高	慢

4. 最佳实践

4.1 Transformer 配置

def configure_transformer(task_type): if task_type == 'translation': return { 'd_model': 512, 'num_heads': 8, 'd_ff': 2048, 'num_layers': 6 } elif task_type == 'summarization': return { 'd_model': 768, 'num_heads': 12, 'd_ff': 3072, 'num_layers': 12 } class TransformerConfig: @staticmethod def base(): return {'d_model': 512, 'num_heads': 8, 'd_ff': 2048, 'num_layers': 6} @staticmethod def large(): return {'d_model': 1024, 'num_heads': 16, 'd_ff': 4096, 'num_layers': 12}

4.2 训练策略

class TransformerTrainer: def __init__(self, model, optimizer, scheduler): self.model = model self.optimizer = optimizer self.scheduler = scheduler def train_step(self, src, tgt, loss_fn): self.optimizer.zero_grad() output = self.model(src, tgt[:, :-1]) loss = loss_fn(output.reshape(-1, output.size(-1)), tgt[:, 1:].reshape(-1)) loss.backward() self.optimizer.step() self.scheduler.step() return loss.item()