当前位置：首页 > news >正文

LLM训练中的熵崩溃问题与熵正则化解决方案

news 2026/6/22 23:02:52

1. 基础LLM训练中的熵崩溃问题与解决思路

在大型语言模型（LLM）的训练过程中，我们经常会遇到一个被称为"熵崩溃"（Entropy Collapse）的现象。这种现象在基础模型（Base Model）训练早期尤为明显，表现为模型输出分布的熵值迅速下降，导致生成结果缺乏多样性。具体来说，当模型过早地收敛到某些高概率的token上时，就会丧失对其他可能性的探索能力。

这种现象在开放域问答（Open-domain QA）任务中影响尤为严重。以多跳问答（Multi-hop QA）为例，这类问题通常需要模型综合多个信息片段才能得出正确答案。如果模型过早地陷入局部最优，就可能忽略其他潜在的合理答案路径。例如，当回答"哪位科学家在获得诺贝尔奖后转向了和平运动？"这类问题时，模型可能会固守一个常见答案（如爱因斯坦），而忽略其他可能性（如莱纳斯·鲍林）。

2. 熵正则化的核心原理与实现

2.1 熵正则化的数学表达

熵正则化的核心思想是在传统的强化学习目标函数中加入一个熵项，鼓励模型保持输出的多样性。具体到我们的实现中，策略πθ的更新目标函数为：

J(θ) = Ex∼D,{yi}Gi=1∼πθold(·|x) [1/G Σ(min(πθ(yi|x)/πθold(yi|x)Ai, clip(πθ(yi|x)/πθold(yi|x),1-ϵ,1+ϵ)Ai)) + λHθ(x,yi)]

其中Hθ(x,yi)就是关键的熵正则项，它被定义为在生成序列yi过程中各token熵的平均值：

Hθ(x,yi) = 1/|yi| Σ H(πθ(·|x,yi,<t)) H(p) = -Σ p(a)log p(a)

2.2 自适应熵控制机制

我们发现简单地添加固定权重的熵项并不总能取得理想效果。为此，我们引入了自适应熵控制方法，主要包含三个关键参数：

目标熵值h：根据不同模型规模设定（如3B模型设为0.3，7B模型设为0.25）
最大熵权重λmax：设为1e-2
调整步长δ：设为2e-3

系统会实时监控当前熵值，当低于h时增加λ，高于h时减小λ。这种动态调整确保了模型在整个训练过程中保持适当的探索能力。

3. 在Qwen2.5-Base上的具体实现

3.1 模型架构调整

我们在Qwen2.5-Base模型的基础上进行了以下修改：

在输出层前添加熵监控模块，实时计算每个token的预测分布熵
修改损失函数计算流程，将熵项纳入反向传播
实现自适应控制器的周期性更新（每1000步调整一次λ）

3.2 训练流程优化

针对基础模型的特点，我们优化了训练流程：

预热阶段（前10%训练步数）：使用较高的初始熵权重（λ=5e-3）
稳定阶段：启用自适应控制
微调阶段（最后5%训练步数）：逐步降低λmax，使模型收敛

重要提示：基础模型与指令微调模型不同，需要在prompt设计上做特殊处理。我们使用了专门为base模型设计的prompt模板（见附录F.6-F.7），避免模型因不理解指令而导致熵值异常。

4. 在多跳问答任务中的效果验证

4.1 实验设置

我们在四个主流多跳QA数据集上进行了测试：

HotpotQA
2WikiMultiHopQA
MuSiQue
Bamboogle

对比了以下关键指标：

AnsF1@k：考虑多个答案时的F1分数
Recall@k：前k个结果中的正确答案召回率
rptc（Recall per Tool Call）：每次工具调用的平均召回增益

4.2 性能对比分析

从实验结果可以看出：

熵控制显著提升了验证集表现：
- AnsF1提高12-15%
- Recall@3提升约20%
模型规模的影响：
- 7B模型比3B模型更能受益于熵正则化
- 但3B模型在rptc指标上表现更优（0.21 vs 0.12）
与基线方法对比：
- 单次rollout即可达到基线方法3次rollout的Recall水平
- 在Bamboogle数据集上，AnsF1从47.2提升到61.4