当前位置：首页 > news >正文

从编码器视角深入理解Transformer注意力机制

news 2026/6/8 6:03:47

1. 项目概述：为什么从编码器视角讲注意力，比泛泛而谈更有实操价值

“Explaining Attention in Transformers [From The Encoder Point of View]”这个标题乍看像一篇理论综述，但作为在NLP工程一线打磨过十几个工业级文本理解系统（从客服意图识别到金融研报摘要生成）的从业者，我敢说——90%的工程师根本没真正用过Encoder-only架构下的注意力机制，更别说调得明白、改得稳当、查得清楚。你可能背过Scaled Dot-Product Attention公式，也跑过Hugging Face的BertModel，但当你面对一个实际任务：比如把2000字的合同条款压缩成300字合规摘要，模型输出开始漏掉关键责任主体、混淆“不可抗力”和“免责条款”的权重分配时，你翻遍文档都找不到问题出在哪一层Attention Head上——因为绝大多数教程只讲“注意力是什么”，不讲“在Encoder里它到底怎么干活、怎么卡壳、怎么被你亲手拧紧”。

这个标题的核心关键词是Encoder Point of View，不是Decoder，不是Encoder-Decoder，就是纯Encoder。这意味着我们彻底剥离掉自回归生成、掩码未来token、跨模态对齐这些干扰项，聚焦在最基础、最广泛、也最容易被误用的场景：文本表征学习。BERT、RoBERTa、DeBERTa、ELECTRA、甚至现在轻量级的DistilBERT、TinyBERT，全都是Encoder-only结构。你在做文本分类、命名实体识别、语义匹配、知识图谱补全时，调用的永远是这一套注意力逻辑。它不炫技，但天天用；它不复杂，但细节致命。

我做过一个真实对比实验：同一份法律文书二分类任务（“是否含排他性条款”），用默认配置的BERT-base微调，F1卡在0.82；我把第6层第3个Head的attention map导出来可视化，发现它在处理“本协议”“甲方”“乙方”这三个词时，注意力权重几乎平均分配，完全没捕捉到主谓宾依赖——而这是Encoder注意力最该干好的事。后来我只动了两处：一是把该Head的attn_dropout从0.1降到0.05，二是给输入token加了位置编码偏置（Position Bias），F1直接跳到0.87。你看，问题不在模型架构，而在你对Encoder注意力内部行为的理解深度。

所以这篇内容不是给你复述论文公式，而是带你钻进Encoder的每一层、每一个Head、每一次QKV计算的现场，告诉你：

为什么Encoder的注意力必须是双向的，而这种“双向”在工程实现中如何被attention_mask悄悄阉割；
为什么LayerNorm的位置放在Attention之后、FFN之前，而不是反过来——这直接决定梯度能不能稳定传到第一层；
为什么你调learning rate时，要单独给attention层的weight decay设成0.01，而FFN层设成0.001；
为什么在长文本场景下，max_position_embeddings=512不是上限，而是灾难起点，而解决方案根本不在改参数，而在重写get_extended_attention_mask函数。

如果你正在微调一个BERT类模型却总卡在验证集震荡、loss不降、attention map一片混沌，或者你刚学完Transformer想动手拆解但被各种“Query-Key-Value”比喻绕晕，那这篇就是为你写的。它不假设你懂矩阵求导，但要求你愿意打开PyTorch源码，跟着我一行行看BertSelfAttention.forward()里到底发生了什么。

2. 编码器注意力的整体设计逻辑与底层动机

2.1 为什么Encoder必须用Self-Attention，而不是RNN或CNN？

先破一个常见误解：很多人以为Transformer取代RNN是因为“并行计算快”。错。真正致命的是长程依赖建模能力的代际差异。我在2018年用BiLSTM+CRF做医疗NER时，处理一份含1200词的病历报告，模型对“患者于2023年1月确诊，2024年3月复发”这句话里的两个时间点关联性建模极弱——BiLSTM的梯度衰减让第1个词和第1200个词之间的信息流几乎为零。当时我们试过加残差连接、换GRU、堆更深层数，效果提升不到0.3% F1。

而Encoder的Self-Attention，理论上任意两个token之间都存在单跳路径。数学上，Attention Score = Q·K^T / √d_k，其中Q和K是所有token的线性投影。这意味着第1个token的Query向量，会和第1200个token的Key向量直接点积。没有门控、没有遗忘、没有梯度截断——只有纯粹的、可微分的、全局的关联强度计算。

但这里埋着第一个坑：理论上的单跳 ≠ 实际中的有效单跳。真实情况是，当序列长度L=512时，Q·K^T矩阵大小是512×512=262,144个值；当L=2048时，直接暴涨到4,194,304个值。内存占用是O(L²)，计算量是O(L²d_k)。所以你在Hugging Face加载bert-large-uncased时看到max_position_embeddings=512，不是因为模型“只能处理512”，而是因为在标准GPU显存下，512是Q·K^T矩阵不OOM的工程安全线。

提示：很多初学者一上来就改max_position_embeddings=1024，结果训练时CUDA out of memory。这不是模型限制，是硬件约束。真正的长文本方案（如Longformer、BigBird）根本不是靠硬扩长度，而是用局部窗口+全局token+随机注意力的混合模式，在O(L)复杂度下逼近O(L²)效果。但那是另一个话题——本文聚焦标准Encoder，所以所有讨论都基于L≤512的现实场景。

2.2 Encoder注意力的三层核心设计目标

Encoder的注意力不是为生成服务的，它的唯一使命是：为每个token生成一个上下文感知的、鲁棒的、可区分的向量表示。围绕这个目标，设计者塞进了三个精密咬合的机制：

第一层：双向上下文捕获（Bidirectional Context Capture）
RNN只能看到左边（或右边），CNN感受野有限。而Encoder通过attention_mask控制，让每个token能看到整个句子的所有其他token。注意，这里的“双向”不是指模型结构对称，而是指计算时无方向性约束。例如在句子“I love NLP”中，token “love” 的Q向量会同时与“I”和“NLP”的K向量计算相似度，从而同时吸收主语和宾语信息。这是BERT能理解“bank”在“river bank”和“bank account”中不同含义的根本原因——它不是靠词典规则，而是靠上下文token的注意力权重动态分配。

第二层：层级化特征抽象（Hierarchical Feature Abstraction）
Encoder堆叠12层（base）或24层（large），每层的Attention都在做不同粒度的抽象。第1层关注局部语法（如“is”和“running”强关联），第6层开始建模语义角色（如“John”→“subject”，“apple”→“object”），第12层则捕捉篇章级指代（如“he”指向前面的“John”）。这种分层不是设计出来的，是在预训练中自然涌现的。我用probing task验证过：冻结前6层只微调后6层，命名实体识别性能下降12%；反之，冻结后6层只微调前6层，下降仅3%——证明高层注意力承载更高级的语义信息。

第三层：鲁棒性与泛化性保障（Robustness & Generalization Guard）
这是最容易被忽略的一层。Encoder注意力通过三重机制防过拟合：

Dropout：在Q·K^T计算后、Softmax前加dropout（attn_dropout），防止某些Head过度依赖固定token对；
LayerNorm：在Attention输出后立即归一化，把各Head输出拉到同一量级，避免某一层输出爆炸导致后续层梯度消失；
残差连接：Attention输出 + 原始输入，确保即使某层Attention失效，信息也能直通到底层。

这三层设计不是孤立的。举个例子：如果没有残差连接，第12层Attention一旦因初始化问题输出全零，整个前向传播就断了；但有了残差，至少原始embedding还在，梯度还能反传回去修正第1层参数。这就是为什么BERT微调时learning rate要设得很小（2e-5），因为残差连接让深层参数更新变得极其敏感——你调大一点，第12层Attention就可能把第1层学好的词向量全覆盖掉。

2.3 为什么必须从Encoder视角切入？Decoder和Encoder-Decoder的干扰在哪

很多人学注意力，一上来就看OpenAI的GPT（Decoder-only）或Google的T5（Encoder-Decoder），结果越学越糊涂。因为这两类架构的注意力有根本性差异：

维度	Encoder-only (BERT)	Decoder-only (GPT)	Encoder-Decoder (T5)
注意力类型	Self-Attention（双向）	Self-Attention（单向，带causal mask）	Encoder: Self-Attention（双向） Decoder: Self-Attention（单向）+ Cross-Attention（Encoder→Decoder）
Mask作用	`attention_mask`：屏蔽padding token（值为0）	`causal_mask`：强制i>j时score=-inf，保证自回归	Encoder mask同BERT；Decoder self-mask同GPT；Cross-mask无mask，全连接
QKV来源	全部来自同一输入序列	全部来自Decoder输入序列	Self-Attention：QKV均来自Decoder Cross-Attention：Q来自Decoder，K/V来自Encoder输出
典型失败场景	长文本中远距离token权重衰减	生成时重复输出同一短语（如“the the the”）	翻译时漏译专有名词（因Cross-Attention未聚焦）

看到区别了吗？Encoder的注意力是封闭系统：输入是什么，QKV就全从里面抽。它不预测下一个词，不接收外部状态，不跨模态对齐。它的全部价值，就是把一串token变成一串更好的token向量。这种纯粹性，恰恰让它成为理解注意力本质的最佳入口。

而Decoder的causal mask（因果掩码）会强行切断token间的右向连接，导致其注意力机制天然带有“遗忘”属性——它必须靠循环或缓存来记住历史，这和Encoder的全局记忆完全相反。至于Encoder-Decoder的Cross-Attention，本质是把Encoder的输出当“数据库”，Decoder的Q去里面检索。这已经超出了“注意力如何工作”的范畴，进入了“如何设计高效检索接口”的工程问题。

所以，如果你的目标是搞懂“注意力到底在算什么”，请死磕Encoder。等你能徒手写出BertSelfAttention的forward函数，并解释清楚为什么torch.bmm(Q, K.transpose(-2,-1))之后要除以sqrt(d_k)，再去做Decoder——否则你永远在调参，而不是在理解。

3. 核心细节解析：从QKV计算到LayerNorm的每一步实操要点

3.1 QKV的诞生：线性投影不是随便乘个矩阵那么简单

打开Hugging Face的modeling_bert.py，找到BertSelfAttention类，forward函数第一行是：

mixed_query_layer = self.query(hidden_states) mixed_key_layer = self.key(hidden_states) mixed_value_layer = self.value(hidden_states)

这里self.query、self.key、self.value都是nn.Linear(hidden_size, all_head_size)。以BERT-base为例，hidden_size=768，num_attention_heads=12，所以all_head_size=768（即每Head维度d_k = 768/12 = 64）。

但新手常犯的错误是：以为mixed_query_layer就是最终的Q。错。这只是“混合查询层”，后面还要切分成12个Head。真正代码是：

query_layer = self.transpose_for_scores(mixed_query_layer) # [B, N, S, D] # 其中 transpose_for_scores = lambda x: x.view(B, S, N, D).permute(0,2,1,3)

这里B=batch size,S=sequence length,N=num heads,D=head dimension。

为什么一定要切分？因为Multi-Head的本质是并行执行N个不同的注意力子空间。每个Head学习不同的关系：有的专注语法（主谓一致），有的专注语义（同义替换），有的专注指代（代词消解）。如果所有Head共用同一组QKV，那就退化成Single-Head，表达能力断崖下跌。

我做过消融实验：把BERT-base的12个Head强制设为相同权重（即query.weight[0] = query.weight[1] = ...），在SQuAD v1.1上F1直接从88.5%掉到79.2%。差距近10个点，证明多头不是为了并行加速，而是为了特征解耦。

注意：transpose_for_scores的permutation顺序（0,2,1,3）决定了计算时的内存布局。PyTorch的bmm（batch matrix multiplication）要求最后两维是矩阵，所以要把Head维度（N）提到第二位，这样bmm(Q, K.transpose(-2,-1))才能正确计算每个Head的Q·K^T。如果你自己实现时顺序写反（比如0,1,2,3），结果会全乱——这是调试时最常见的低级错误。

3.2 Attention Score计算：缩放因子√d_k的物理意义与实测影响

公式是：Attention(Q,K,V) = softmax(Q·K^T / √d_k) · V。那个√d_k不是装饰品，是救命稻草。

为什么需要缩放？因为Q和K是随机初始化的，其元素服从均值为0、方差为1的正态分布。当d_k=64时，Q·K^T中每个元素是64个独立随机变量的和，根据中心极限定理，其方差≈64。也就是说，不缩放时，Q·K^T的值域集中在[-8,8]附近，而softmax对输入非常敏感：输入差1，输出概率可能差10倍。结果就是，softmax输出趋向于one-hot（某个token权重接近1，其余接近0），梯度变得极小，训练停滞。

我实测过：在BERT-base微调时，注释掉/ sqrt(d_k)这一行，loss在前100步就爆炸到nan；恢复后，loss平稳下降。

更关键的是，√d_k必须严格等于math.sqrt(self.attention_head_size)。我见过有人为“让数值好看”改成/8（因为64开方是8），结果在d_k=64时没问题，但换到RoBERTa-large（d_k=64）或DeBERTa（d_k=64）时依然可用——等等，DeBERTa的d_k也是64？不，DeBERTa用的是disentangled attention，d_k其实是128。如果你硬写/8，就会导致缩放不足，attention map过平滑。

所以正确做法永远是：

scale_factor = math.sqrt(self.attention_head_size) # 动态计算，不硬编码 attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2)) / scale_factor

3.3 Mask的真相：attention_mask不是开关，而是负无穷注入器

attention_mask常被描述为“屏蔽padding token”，但它的实现远比开关复杂。看源码：

if attention_mask is not None: attention_scores = attention_scores + attention_mask

注意，这里是加法，不是乘法！attention_mask的shape是[B, 1, 1, S]，值为0（有效token）或-10000（padding token）。所以当padding位置的score被加上-10000后，再进softmax，exp(-10000)≈0，该位置权重彻底归零。

这个设计有两大深意：

梯度友好：如果是乘0，梯度在mask位置为0，无法更新；而加-10000，梯度仍能反传到QKV，只是权重极小。
支持部分屏蔽：你可以把mask设为-100（弱屏蔽）或-1000（强屏蔽），实现不同程度的注意力抑制。比如在法律文本中，你想让模型弱化“根据本协议”这类模板化开头，就把对应位置mask设为-100，而不是一刀切。

实操心得：很多同学在构造attention_mask时用torch.where(input_ids != 0, 1, 0)，然后直接喂给模型——错！BERT的mask要求是0/1，但T5要求是0/-inf，而Hugging Face的generate()函数内部会自动转换。如果你手动构造，必须确认tokenizer的pad_token_id和模型期望的mask格式。最稳妥的方法是：attention_mask = (input_ids != tokenizer.pad_token_id).long()，然后在forward前检查attention_mask.dtype == torch.long。

3.4 Softmax之后：为什么V的加权和不是终点，LayerNorm才是稳定器

softmax(Q·K^T)·V输出的是[B, N, S, D]，接着要context_layer = context_layer.permute(0, 2, 1, 3).contiguous()，再view(B, S, N*D)，最后过一个dense层（nn.Linear(all_head_size, hidden_size)）得到[B, S, hidden_size]。

到这里，你以为结束了？不，真正的稳定器才登场：

layer_output = self.dense(context_layer) # [B, S, H] layer_output = self.dropout(layer_output) # Dropout on output layer_output = self.LayerNorm(layer_output + input_tensor) # Residual + LN

注意三点：

LayerNorm的位置：在残差连接之后，不是之前。这意味着LN是对Attention输出 + 原始输入这个和进行归一化。如果放错位置（比如LN在残差前），会导致原始输入的分布被破坏，微调时极易崩溃。
LayerNorm的维度：是对[S, H]维度归一化（即每个token的768维向量独立归一化），不是对batch归一化（BatchNorm）。这是因为NLP任务中batch内token分布差异极大，BN会引入噪声。
残差连接的尺度：input_tensor是原始输入，layer_output是Attention输出，二者shape必须严格一致。如果hidden_size和all_head_size不等（如某些变体），必须加一个nn.Linear做映射，否则运行时报错。

我踩过的坑：在自定义Encoder时，忘了在残差前加self.dense，导致context_layer是768维，input_tensor是768维，但context_layer经过view后维度混乱，相加时报size mismatch。调试半小时才发现是contiguous()没加——PyTorch的view要求tensor内存连续，而permute后的tensor不保证连续，必须.contiguous()。

4. 完整实操过程：从零复现BERT Encoder注意力并可视化分析

4.1 环境准备与最小可运行代码

我们不用Hugging Face的完整模型，而是手写一个极简版BERT Encoder Layer，只保留注意力核心。环境：Python 3.9+, PyTorch 2.0+。

pip install torch transformers datasets

创建minimal_bert_attention.py：

import torch import torch.nn as nn import math class MinimalBertSelfAttention(nn.Module): def __init__(self, hidden_size=768, num_attention_heads=12, dropout_prob=0.1): super().__init__() if hidden_size % num_attention_heads != 0: raise ValueError(f"hidden_size {hidden_size} must be divisible by num_attention_heads {num_attention_heads}") self.num_attention_heads = num_attention_heads self.attention_head_size = int(hidden_size / num_attention_heads) self.all_head_size = self.num_attention_heads * self.attention_head_size self.query = nn.Linear(hidden_size, self.all_head_size) self.key = nn.Linear(hidden_size, self.all_head_size) self.value = nn.Linear(hidden_size, self.all_head_size) self.dropout = nn.Dropout(dropout_prob) self.dense = nn.Linear(self.all_head_size, hidden_size) self.LayerNorm = nn.LayerNorm(hidden_size, eps=1e-12) def transpose_for_scores(self, x): new_x_shape = x.size()[:-1] + (self.num_attention_heads, self.attention_head_size) x = x.view(*new_x_shape) return x.permute(0, 2, 1, 3) # [B, N, S, D] def forward(self, hidden_states, attention_mask=None): mixed_query_layer = self.query(hidden_states) # [B, S, H] mixed_key_layer = self.key(hidden_states) # [B, S, H] mixed_value_layer = self.value(hidden_states) # [B, S, H] query_layer = self.transpose_for_scores(mixed_query_layer) # [B, N, S, D] key_layer = self.transpose_for_scores(mixed_key_layer) # [B, N, S, D] value_layer = self.transpose_for_scores(mixed_value_layer) # [B, N, S, D] # Q·K^T attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2)) # [B, N, S, S] attention_scores = attention_scores / math.sqrt(self.attention_head_size) # 缩放 if attention_mask is not None: # attention_mask shape: [B, 1, 1, S] or [B, S] if attention_mask.dim() == 2: attention_mask = attention_mask.unsqueeze(1).unsqueeze(2) # [B, 1, 1, S] attention_scores = attention_scores + attention_mask # Softmax attention_probs = nn.Softmax(dim=-1)(attention_scores) # [B, N, S, S] attention_probs = self.dropout(attention_probs) # Weighted sum context_layer = torch.matmul(attention_probs, value_layer) # [B, N, S, D] context_layer = context_layer.permute(0, 2, 1, 3).contiguous() # [B, S, N, D] new_context_layer_shape = context_layer.size()[:-2] + (self.all_head_size,) context_layer = context_layer.view(*new_context_layer_shape) # [B, S, H] # Output projection context_layer = self.dense(context_layer) # [B, S, H] context_layer = self.dropout(context_layer) layer_output = self.LayerNorm(context_layer + hidden_states) # Residual + LN return layer_output, attention_probs # 返回output和attention map供可视化

4.2 构造测试数据与运行流程

我们用一句话测试：“The cat sat on the mat.”（7个token，含[CLS]和[SEP]共9个）。

from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') text = "The cat sat on the mat." inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128) input_ids = inputs["input_ids"] # [1, 9] attention_mask = inputs["attention_mask"] # [1, 9], 1 for valid, 0 for pad # 模拟hidden_states：随机初始化，但符合BERT的初始化分布 hidden_size = 768 torch.manual_seed(42) hidden_states = torch.randn(1, 9, hidden_size) * 0.02 # BERT的初始化std=0.02 # 初始化注意力层 attn_layer = MinimalBertSelfAttention(hidden_size=768, num_attention_heads=12) # 运行 output, attn_probs = attn_layer(hidden_states, attention_mask.unsqueeze(1).unsqueeze(2)) print(f"Output shape: {output.shape}") # [1, 9, 768] print(f"Attention probs shape: {attn_probs.shape}") # [1, 12, 9, 9]

运行成功，说明核心逻辑通了。下一步是可视化。

4.3 可视化Attention Map：看懂第6层第3个Head在想什么

我们用matplotlib画出第0个batch、第3个Head（索引2）、第4个token（“sat”）的注意力权重：

import matplotlib.pyplot as plt import numpy as np # 取第0个样本，第2个Head（索引从0开始），第4个token（"sat"在tokenized后是第4位） head_idx = 2 token_idx = 4 attn_weights = attn_probs[0, head_idx, token_idx, :].detach().numpy() # [9] # 获取token列表 tokens = tokenizer.convert_ids_to_tokens(input_ids[0]) print("Tokens:", tokens) print("Attention weights for 'sat':", attn_weights.round(3)) # 画图 plt.figure(figsize=(10, 2)) plt.bar(range(len(tokens)), attn_weights) plt.xticks(range(len(tokens)), tokens, rotation=45) plt.title(f"Attention weights for token '{tokens[token_idx]}' (Head {head_idx})") plt.ylabel("Attention Score") plt.tight_layout() plt.show()

实测输出（随机种子42）：

Tokens: ['[CLS]', 'the', 'cat', 'sat', 'on', 'the', 'mat', '.', '[SEP]'] Attention weights for 'sat': [0.001 0.012 0.185 0.421 0.213 0.021 0.008 0.002 0.001]

看到没？“sat”最关注自己（0.421），其次关注“cat”（0.185）和“on”（0.213），这完全符合主谓宾语法结构——它在找主语和介词宾语。而“[CLS]”和“[SEP]”权重极低，说明模型已学会忽略特殊token。

实操心得：可视化时务必用detach().numpy()，否则会报错。另外，attn_probs是softmax后的概率，总和为1，所以可以直接当权重看。但如果你想看原始score（Q·K^T），要在softmax前取attention_scores[0, head_idx, token_idx, :]，那里的值域很广（-5到5），需要归一化才能画。

4.4 深度调试：修改Head权重，观察下游任务变化

现在我们动手改一个Head，看看对分类任务的影响。用IMDB电影评论数据集（正面/负面）：

from datasets import load_dataset from torch.utils.data import DataLoader # 加载数据 dataset = load_dataset("imdb", split="train[:1000]") # 小样本快速测试 def tokenize_function(examples): return tokenizer(examples["text"], truncation=True, padding=True, max_length=128) tokenized_datasets = dataset.map(tokenize_function, batched=True) # 构造DataLoader train_dataloader = DataLoader(tokenized_datasets, shuffle=True, batch_size=8) # 修改注意力层：让第0个Head强制关注[CLS] token class ModifiedBertSelfAttention(MinimalBertSelfAttention): def forward(self, hidden_states, attention_mask=None): # 先走原流程 output, attn_probs = super().forward(hidden_states, attention_mask) # 强制第0个Head的[CLS]权重为1，其余为0 # attn_probs shape: [B, N, S, S] B, N, S, _ = attn_probs.shape # 创建新mask：[B, 1, S, S]，第0个Head的第0列（[CLS]列）全1，其余0 cls_mask = torch.zeros_like(attn_probs[:, 0:1, :, :]) cls_mask[:, :, 0, :] = 1.0 # [CLS]行全1？不对，是[CLS]列！ # 正确：让每个token都只关注[CLS] cls_mask = torch.zeros_like(attn_probs[:, 0:1, :, :]) cls_mask[:, :, :, 0] = 1.0 # 第0列（[CLS]）权重为1 # 替换第0个Head attn_probs_modified = torch.cat([ cls_mask, attn_probs[:, 1:, :, :] ], dim=1) # 重新计算context_layer（略，此处为演示逻辑） # 实际中需重写整个forward，但原理相同 return output, attn_probs_modified

这个修改意味着：无论输入什么，“[CLS]” token的表示将完全由它自己决定，其他token无法影响它。结果在IMDB上准确率从85%掉到62%——证明[CLS]的语义必须来自上下文聚合，不是自我指涉。

这就是从Encoder视角理解注意力的价值：你能精准干预、定位、验证每一个设计环节，而不是在黑箱里瞎猜。

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 Attention Map一片模糊/全白/全黑，怎么办？

这是最高频问题。现象：用plt.imshow(attn_probs[0,0])画热力图，结果全是浅色（模糊）或全黑（0）或全白（1）。

排查步骤：

检查attention_mask是否正确构造：打印attention_mask[0]，确认是[1,1,1,...,0,0]（1为有效，0为padding）。如果全是1，说明没padding；如果全是0，说明输入全被mask了。
检查softmax前的score范围：在forward中加print(attention_scores[0,0,0,:].min(), attention_scores[0,0,0,:].max())。正常应在-5~5之间。如果min=-10000，说明mask注入错误；如果max=100，说明没缩放。
检查dtype：attention_probs.dtype必须是torch.float32。如果用了torch.float16，softmax可能溢出。

独家技巧：在softmax前加attention_scores = torch.clamp(attention_scores, min=-50, max=50)，防止极端值导致nan。这是Hugging Face源码里的隐藏保护。

5.2 微调时Loss震荡剧烈，Attention权重忽高忽低

现象：训练loss在0.3和1.2之间跳，attention map每轮都不同，无法收敛。

根本原因：LayerNorm的eps太小，或dropout率太高。

eps=1e-12在FP16下可能失效，建议改为1e-5；
attn_dropout=0.1对小数据集过强，降到0.05或0.01；
更关键的是：学习率没分层。BERT的Attention层对lr更敏感，应设为2e-5，而FFN层可设为3e-5。Hugging Face的Trainer支持optimizers自定义，但多数人直接用默认lr。

实测方案：

from transformers import AdamW param_optimizer = list(model.named_parameters()) no_decay = ['bias', 'LayerNorm.bias', 'LayerNorm.weight'] optimizer_grouped_parameters = [ {'params': [p for n, p in param_optimizer if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01}, {'params': [p for n, p in param_optimizer if any(nd in n for nd in no_decay)], 'weight_decay': 0.0} ] optimizer = AdamW(optimizer_grouped_parameters, lr=2e-5)

注意，LayerNorm.weight和bias必须设weight_decay=0，否则归一化参数被正则化，模型直接崩。

5.3 长文本（>512）截断后，关键信息丢失严重

现象：处理合同全文时，模型总漏掉末尾的“争议解决条款”。

不是模型问题，是截断策略问题。默认truncation="longest_first"会从两边截，但法律文本的关键在结尾。

正确方案：

用truncation="only_second"，只截后半部分，保留开头的“鉴于”和结尾的“生效条款”；
或自定义截断：优先保留[SEP]附近的token，因为BERT的[SEP]常分隔不同段落；
最佳实践：用滑动窗口（sliding window），把长文本切成重叠块（如512/256），分别编码，再用pooling融合。Hugging Face的AutoTokenizer支持return_overflowing_tokens=True。

outputs = tokenizer( long_text, return_overflowing_tokens=True, stride=128, # 重叠128个token max_length=512, truncation=True ) # outputs["input_ids"] 是list of list，每个子list是一个chunk