当前位置：首页 > news >正文

模型输出乱码、无限重复单一字符与FP16精度溢出

news 2026/3/26 17:49:17

踩坑记录：使用Triton替换RMSnorm算子，不管输入是什么模型都输出!!!!!!!!!!!

错误代码：

# x 的 dtype 是 FP16
x2 = x * x
# 【关键修复】将 x 转换为 fp32 以防止计算 x^2 时溢出
# x_fp32 = x.to(tl.float32)
mean = tl.sum(x2, axis=0) / n_elements
rms = tl.sqrt(mean + eps)  # sqrt(Inf + 1e-6) = Inf
inv_rms = 1.0 / rms        # 1.0 / Inf = 0.0
y = x * inv_rms * w        # x * 0.0 * w = 0.0

FP16 的表示范围：在 IEEE 754 标准中，半精度浮点数（FP16）的最大表示范围是 65504。任何超过这个数值的计算结果，都会被截断并标记为 Inf（无穷大）。
大模型的常态参数：大模型中间层的激活值 x的绝对值经常会达到 50 甚至 100 以上。
平方爆炸：假设某个特征值为 $x = 100$，此时 $x^2 = 10000$，这还在 FP16 范围内。但是， tl.sum(x2, axis=0)大模型的通道维度（n_elements）通常是 2048 或 4096。即使平均每个 $x^2$ 只有 50，求和后 $50 \times 2048 = 102400$，造成溢出
mean 变量在计算时，分子变成了 Inf。因此，mean 的值变成了 Inf。
对 Inf 开根号依然是 Inf。然后你用 1.0 / Inf，在浮点数运算中，这会合法地得到 0.0。
整个向量 y 变成了一片纯粹的 0.0。模型在这一层丢失了所有的特征信息（图像长什么样、问题问了什么，全部被抹零了）。
当 RMSNorm 输出全 0 后，这个错误开始在 Transformer 层间传播：
Self-Attention 失效：
- Q (Query) 和 K (Key) 是全 0。
- 注意力分数 $Q \times K^T$ 也是全 0。
- Softmax(全 0) 会得到一个绝对均匀的分布（比如 1/2048）。这意味着模型把注意力平分给了所有 Token，失去了对上下文的任何聚焦能力。
NaN 的诞生：
- 在模型的后续计算（比如 GeLU 激活函数、或者跨模态 Cross-Attention 的残差连接）中，极其容易出现 $0 \times \text{Inf}$ 或者微小的除零错误。
- 一旦出现，数据就会从 0.0 恶化为 NaN（Not a Number）。
- NaN 具有极强的特性：任何数加上、减去或乘以 NaN，结果都是 NaN。只需几次前向传播，整个模型的隐藏状态（Hidden States）就全部变成了 NaN。
当最后一层把带有 NaN 或全 0 的特征传给 LM Head
Logits 崩溃：模型预测词表中每个词的概率分数变成了一个平坦的直线（全相等），或者是全 NaN。
解码器的无脑选择：PyTorch 的 argmax 函数在面对全一样的值或全 NaN 时，通常会默认返回索引值最小的那一个，或者触发底层 C++ 的 fallback 机制返回 Token ID 0
EOS 的丢失：正常情况下，模型生成完一句话，会预测出概率最高的 <|im_end|> 或 <|endoftext|> (EOS Token)，触发代码里的 break 停止生成。但现在所有概率都一样（或崩坏），模型永远不可能把 EOS 放在第一位。
无限复读机：模型只能机械地输出那个默认的 Token ID。在很多 Tokenizer 中，排在最前面的标点符号经常是 !（或空格、.）。于是，模型开始疯狂复读 !!!!!!!!!!!!!!!!
硬件负担：当 GPU 的 ALU（算术逻辑单元）突然在寄存器里读到了 Inf 或 NaN，硬件流水线会立即触发异常中断（Exception Handling）。
为了保证符合 IEEE 754 规范，GPU 会跳出高度优化的硬件加速路径（Fast Path），转而走微代码（Microcode）级别的异常处理慢速路径（Slow Path）。

核心复盘总结 (Takeaways)

算子开发第一法则（Reduction Rule）：
任何涉及归约（Reduction）操作的算子（如 Sum, Mean, Max, Dot Product），只要输入是 FP16，内部累加器（Accumulator）和中间计算必须无条件转为 FP32（.to(tl.float32)）。
Triton 算子融合（Kernel Fusion）虽然能极大地减少显存读写，但因为中间变量驻留在寄存器中，如果没有手动控制精度转换，很容易掩盖溢出错误，导致整个网络静默崩溃。
当模型出现“无限重复单一字符”、“乱码”、“The The The”时，不要去调 Prompt，也不要去查 Tokenizer。99.9% 的情况是底层计算溢出（Overflow）、除零（Div-by-zero）或数据结构未对齐（Memory Alignment）导致的 NaN 污染。