当前位置: 首页 > news >正文

CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例,但这种方式难以泛化。

在本工作中,我们提出了一种新的后训练范式,称为约束生成策略优化(Constrained Generative Policy Optimization,CGPO)。CGPO的核心是评审混合机制(Mixture of Judges,MoJ),结合了具成本效益的分层约束策略优化方法,能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证,无需大量超参数调优,并可直接接入常见的后训练流程中。通过这种方式,CGPO能够检测并缓解奖励操纵行为,同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明,CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法(如PPO和DPO)。具体而言,在AlpacaEval-2(通用聊天)上比PPO提高了7.4%,在Arena-Hard(STEM与推理)中提高了12.5%,在IFEval(指令跟随)中提高了2%,在MATH和GSM8K(数学与推理)中均提高了2%,在HumanEval(编程)中提高了5%,在ARC challenge(知识)中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为,而CGP

http://www.jsqmd.com/news/209652/

相关文章:

  • 秒级失守!谷歌账户钓鱼进入“自动化收割”时代,你的Gmail还安全吗?
  • ollydbg下载及安装系统学习:配套工具推荐
  • AI识别自动化:无需编码的工作流搭建教程
  • 高校教学推荐:Proteus下载与多学科仿真应用
  • 退休返聘合同:Qwen3Guard-Gen-8B区分劳务与劳动关系
  • Proteus元件对照表图解说明:初学者必备认知工具
  • 保险精算报告生成:Qwen3Guard-Gen-8B遵循行业统计标准
  • STM32CubeMX使用教程:一文说清RCC时钟配置核心要点
  • 为什么顶尖工程师都在用VSCode做多模型调试?真相令人震惊
  • Claude在VSCode中总是崩溃?90%开发者忽略的4个性能陷阱
  • 动漫交流与推荐平台系统
  • 万物识别模型压缩:在有限资源下的高效部署方案
  • ISTA2A vs ASTM D4169 DC13:医药包装运输测试核心差异解析
  • 使用Fritzing制作Arduino电路的深度剖析
  • 共享单车停放指引:Qwen3Guard-Gen-8B倡导文明用车行为
  • NX定时器抽象层编写:新手教程与调试技巧
  • Keil5安装包下载后如何配置ARM Cortex-M编译环境
  • 爆火免费AI论文神器限时公开!9款告别论文恐惧写作无压力
  • 嵌入式容错设计:结合hardfault_handler的看门狗协同机制
  • ms-swift是否支持Mathtype公式转图像训练?技术可行性分析
  • ms-swift支持MyBatisPlus风格的数据集配置方式,简化训练准备流程
  • 你还在忍受VSCode行内聊天延迟?,这4个优化策略必须掌握
  • ESP32项目ADC采样电路:分压网络设计通俗解释
  • Qwen3Guard-Gen-8B支持Token粒度风险预警吗?答案在这里
  • Qwen3Guard-Gen-8B三级风险分类机制深度解读
  • 校园跑腿便利平台
  • 为什么你的语言模型总出错?VSCode调试配置的8个致命盲区
  • 游戏聊天系统安全升级:集成Qwen3Guard-Gen-8B实时过滤
  • 通过ms-swift调用C# LINQ查询训练日志数据库
  • AXI DMA与UIO驱动集成实战项目应用