阿里:ESPO早停机制优化LLM推理
📖标题:ESPO: Early-Stopping Proximal Policy Optimization
🌐来源:arXiv, 2605.29860v1
🛎️文章简介
🔸研究问题:如何解决大模型强化学习训练中错误推理步骤后继续生成导致的计算浪费与梯度噪声问题?
🔸主要贡献:论文提出ESPO算法,通过实时检测轨迹失败并提前终止生成,在提升数学推理性能的同时节省超20%的训练Token。
📝重点思路
🔸设计逐步代理遗憾信号,利用采样时已计算的Logits差值衡量当前动作偏离贪婪策略的程度,作为失败检测的轻量级指标。
🔸采用指数移动平均对遗憾信号进行归一化处理,并使用冻结的批次统计量防止未来信息泄露,确保因果正确性。
🔸构建价值门控停止准则,当累积归一化遗憾显著超过Critic估计的价值阈值时触发早停,高价值状态允许更大容错空间。
🔸将截断轨迹视为吸收态失败并赋予终端惩罚,使负TD误差集中在失败点附近,避免引入非平稳的逐步奖励偏差。
🔸实施自适应Critic预热机制,在价值函数稳定前禁用早停规则,防止训练初期因价值估计不准导致的误截断。
🔎分析总结
🔸在7B模型上ESPO全面超越PPO和DAPO,AIME24准确率达46.28%,且累计Rollout Token减少约22%,验证了效率与性能的双重提升。
🔸消融实验证实早停收益源于精准的截断位置而非单纯的序列缩短,随机截断变体在相似长度下性能显著低于完整ESPO。
🔸移除终端失败惩罚导致性能下降且平均生成长度增加,证明集中式负反馈比分散惩罚更能有效传递信用分配信号。
🔸仅依赖价值或仅依赖遗憾的单一信号停止策略均不如组合策略,表明两者携带互补信息,缺一不可。
🔸ESPO未导致策略熵崩溃反而减缓了熵衰减速率,说明该方法消除了错误归因的梯度压力,保留了合理的探索空间。
🔸误截断率仅为2.7%,表明移除失败后噪声带来的收益远大于偶尔错误终止可恢复轨迹的成本。
💡个人观点
论文解决长程推理中的信用分配难题,不同于依赖昂贵人工标注的过程奖励模型或需额外训练的终止模块,它巧妙地将Actor的Logits置信度与Critic的价值估计结合,实现了无需外部监督的在线失败检测。
