当前位置：首页 > news >正文

FLM与FMLM：连续去噪技术在语言建模中的突破

news 2026/6/25 11:57:55

1. 语言建模的进化与挑战

在自然语言处理领域，语言建模一直是个核心课题。传统自回归模型（如GPT系列）通过从左到右逐个预测token的方式生成文本，这种"一步一个脚印"的方式虽然稳定，却存在两个致命缺陷：一是生成速度慢，二是难以捕捉全局语义。而非自回归模型（如BERT的MLM）虽然能并行预测，却常因掩码位置独立性假设导致生成质量下降。

最近实验室里几个博士生一直在争论这个问题：有没有可能找到一种既保持并行生成效率，又能保证生成质量的"中间路线"？直到看到FLM（Fast Language Model）和FMLM（Fast Masked Language Model）的论文，我才意识到连续去噪技术或许就是那把钥匙。

2. 连续去噪的核心思想

2.1 从图像到文本的迁移

连续去噪的思想最早来源于计算机视觉中的扩散模型。想象你在修复一张老照片：不是一次性涂掉所有污渍，而是分多次逐步修复。FLM/FMLM将这种思想移植到文本领域，通过多轮迭代的方式渐进式修正文本。

与CV不同的是，文本是离散数据。为此研究者设计了特殊的噪声调度策略：初始阶段允许较大范围的token替换（相当于"大胆假设"），随着迭代进行逐步收紧修改范围（"小心求证"）。这种动态调整的噪声机制是模型成功的关键。

2.2 双模型协作架构

FLM采用独特的双模型设计：

噪声预测模型：类似扩散模型中的噪声估计网络，预测当前文本中需要修改的位置
填充模型：基于上下文信息生成候选token

两个模型通过交叉注意力机制交互，在每次迭代中：

预测模型标记出低置信度token
填充模型生成候选token集合
通过置信度加权融合新旧token

这种设计既保留了并行处理的优势，又通过迭代修正避免了独立预测的缺陷。我们在复现时发现，使用共享参数的轻量级双头架构能在保持性能的同时显著减少参数量。

3. FMLM的改进与创新

3.1 动态掩码机制

FMLM在FLM基础上引入了更聪明的掩码策略。传统MLM随机掩码15%的token，而FMLM的掩码是：

位置动态：基于当前预测不确定性确定掩码位置
比例自适应：从初始30%逐步降至5%
粒度可控：支持subword/word/phrase多级掩码

实测表明，这种策略使模型在早期迭代能快速修正全局语义错误，后期则专注于局部润色。我们在中文数据集上测试时，将最大掩码比例提升到40%效果更好，可能与汉语的意合特性有关。

3.2 混合训练目标

FMLM创新性地组合了三种损失：

去噪损失：标准MLM的交叉熵
一致性损失：强制相邻迭代结果语义连贯
多样性损失：防止过早收敛到平庸解

这种混合目标使得模型在Kaggle竞赛数据集上比纯MLM提升了2.3个BLEU点。特别是一致性损失的设计很巧妙——它计算连续两次迭代输出的KL散度，避免了结果震荡。

4. 工程实现关键点

4.1 高效迭代策略

直接实现多轮迭代会导致计算量暴增。我们通过以下优化将推理速度提升4倍：

# 渐进式解码实现 for step in range(max_steps): # 只对低置信度token重新预测 mask = confidence < threshold[step] logits = model(input_ids, attention_mask, mask) # 温度系数退火 temp = initial_temp * (final_temp/initial_temp)**(step/max_steps) probs = torch.softmax(logits/temp, dim=-1) # 保留高置信度预测 input_ids = torch.where(mask, probs.argmax(-1), input_ids)