当前位置：首页 > news >正文

CGPO：完美融合—用评审混合机制重塑RLHF

news 2026/5/11 15:32:36

强化学习人类反馈（Reinforcement learning from human feedback，RLHF）已成为微调大语言模型（LLM）的主流方法。然而，RLHF在多任务学习（MTL）中存在局限性，原因在于奖励操纵（reward hacking）问题以及极端的多目标优化（即多个甚至有时相互冲突的目标之间的权衡）带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例，但这种方式难以泛化。

在本工作中，我们提出了一种新的后训练范式，称为约束生成策略优化（Constrained Generative Policy Optimization，CGPO）。CGPO的核心是评审混合机制（Mixture of Judges，MoJ），结合了具成本效益的分层约束策略优化方法，能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证，无需大量超参数调优，并可直接接入常见的后训练流程中。通过这种方式，CGPO能够检测并缓解奖励操纵行为，同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明，CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法（如PPO和DPO）。具体而言，在AlpacaEval-2（通用聊天）上比PPO提高了7.4%，在Arena-Hard（STEM与推理）中提高了12.5%，在IFEval（指令跟随）中提高了2%，在MATH和GSM8K（数学与推理）中均提高了2%，在HumanEval（编程）中提高了5%，在ARC challenge（知识）中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为，而CGP

查看全文

http://www.jsqmd.com/news/209652/