当前位置: 首页 > news >正文

AAAI 2026 Oral|论文解读:针对LLM外部推理的因果奖励调整方法

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

点击阅读原文查看作者讲解

近日,实验室研究团队的论文“Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction”被人工智能会议大会(The 40th Annual AAAI Conference on Artificial Intelligence,简称AAAI)接收。AAAI是中国计算机学会(CCF)推荐的A类国际学术会议,在人工智能和机器学习领域享有很高的学术声誉。下面将对该论文做详细的解读,供大家交流学习。

概述

外部推理系统通过将大语言模型(LLMs)与过程奖励模型(PRMs)相结合,在数学问题求解等复杂任务上展现出强劲性能。这类方法依赖于PRM对推理路径进行评分,以引导搜索算法选择高质量解答。然而,这些系统容易遭受奖励黑客攻击,即PRM会将高分错误地赋予逻辑有缺陷的推理步骤,导致最终答案出错。从因果推断视角,我们构建了一个结构因果模型,揭示了语义混淆特征同时影响推理生成与奖励标注,形成后门路径并引入虚假关联。

基于此分析,我们得到两个关键发现:

(1)PRM在存在混淆时实际学习了特征出现概率而非逻辑正确性;

(2)通过后门调整可消除该混淆效应以恢复真实因果奖励。

沿此思路,我们提出Causal Reward Adjustment(CRA),通过三个核心步骤将因果结构融入奖励修正:一是训练稀疏自编码器提取PRM内部可解释特征;二是通过统计检验识别与奖励黑客行为显著相关的混淆特征;三是基于识别特征执行后门调整以消除虚假关联。

在GSM8K和MATH数据集上的实验表明,CRA显著降低奖励黑客影响并提升推理准确率,且无需修改策略模型或重训练PRM。

动机与分析

现有外部推理系统通过PRM对候选推理路径进行逐步评分,依赖beam search等算法选择高分路径作为最终答案。这种方法建立在一个关键假设之上:PRM的评分能够准确反映推理步骤的逻辑正确性。然而在真实场景中,该假设常常失效——如下图示例,在求解矩形内整数点问题时,PRM竟给"5 ≤ x ≤ -5"这种数学上自相矛盾的约束打出0.973的高分,仅仅因为该步骤在形式上"包含不等式组"这一表面特征。这类"奖励黑客"现象揭示出,PRM评分极易受到与逻辑无关的语义混淆特征干扰,如句式模板、关键词出现、步骤长度等。

进一步从因果角度来看,这些语义特征(如"书写不等式组"模式)在训练数据中同时高频出现在两类场景:一是被人类标注者偏好的解答风格中,二是逻辑错误的步骤中。这使得该特征成为一个典型的混淆变量:它既影响推理路径的生成(模型倾向输出带不等式组的步骤),也直接影响奖励标注(标注者看到不等式组就倾向给高分),形成一个后门路径。此时PRM学习的条件期望实际上退化为对混淆特征的检测,即判断"该步骤是否包含混淆特征",而非评估"该步骤是否逻辑正确"。这种虚假关联导致系统错误地将高分赋予表面完美但实质谬误的推理步骤,最终损害整体推理质量。如何在不重训练PRM的前提下,切断这种后门路径、恢复对逻辑正确性的真实因果评估,成为我们工作的核心出发点。

图一: 数学推理中的奖励黑客问题示例。括号内为PRM评分,绿色表示正确步骤,红色表示错误步骤。小黑客图标标识逻辑有缺陷但获得高分的奖励黑客实例。

实验

我们在 GSM8K 与 MATH 两大数学推理基准上系统评估了 CRA。基于 0.5B/3B/7B 等不同规模策略模型与 Math-Shepherd、Qwen2.5-Math-PRM 等主流奖励模型的交叉验证中,CRA 在所有配置下稳定优于原始 PRM 基线,MATH 数据集平均准确率提升 2.9 个百分点,GSM8K 提升 1.6 个百分点。此外,消融实验的干预效果可视化表明,CRA 对识别出的混淆特征进行因果干预时,能特异性地将奖励黑客步骤的分数降低约 0.04,而几乎不影响正常推理步骤,验证了因果特征识别与后门调整在精准抑制评分偏差的同时,保持了模型对正确逻辑的判别能力。

【论文信息】

论文作者:宋锐科*,宋泽恩*,郭慧杰,强文文

英文标题:Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你

在看

提出观点,表达想法,欢迎

留言

点击阅读原文观看作者直播回放!

http://www.jsqmd.com/news/437689/

相关文章:

  • YOLOv3实战|从0到1训练专属猫狗目标检测模型
  • 跨平台自动化安全应急响应数据采集与分析工具
  • 2026年Q1套宝机制造厂综合评测:毕升精工为何蝉联榜首? - 2026年企业推荐榜
  • 专题二:Spring源码编译
  • 【开题答辩全过程】以 呼吸科智慧诊断管理系统的设计与实现为例,包含答辩的问题和答案
  • 数字赋能“智造”新标杆:ToDesk企业版助力百合股份高效协同,领跑营养健康产业
  • 基于YOLO26深度学习的停车场车位智能检测识别系统【python源码+Pyqt5界面+数据集+训练代码】
  • 全球远控软件终极测评:跨境电商、IT 服务行业的优选指南
  • 500 万 GLM 4.7 token免费送,智谱 GLM Coding 搭配 OpenCode 完美搭档
  • 深度探究.NET中委托(Delegate):灵活实现回调与事件驱动编程
  • 探索2026年:五家值得信赖的千问关键词优化服务商 - 2026年企业推荐榜
  • 三维重建的技术路线,越来越收敛了......
  • Google Cloud发布2026年AI Agent趋势报告:五大转变重塑企业运行逻辑
  • 2025年IEEE IOTJ SCI2区TOP,用于三维低空城市环境中无人机路径规划的多策略改进粒子群优化算法,深度解析+性能实测
  • 新能源汽车驱动电机测试台架系统构成与技术演进分析
  • 脉冲/频率计数采集模块:多通道采集,支持断电保存
  • AI元人文:空实辩证(正本)
  • 高速脉冲频率采集输入模块:100KHZ高速采集,正交信号无延迟解析
  • 从DALL·E到Stable Diffusion 3:图像生成技术演进史
  • 2026连锁门店管理系统升级:破解“门店越多,管理越乱”的魔咒
  • 工业设备物联网系统解决方案:整合多端数据,助力企业数字化升级
  • openclaw helloworld 20260304
  • 基于机器学习的商品评论情感分析项目部署指南
  • 数据驱动智能故障诊断技术应用与实践
  • 如何使用 CycleGAN 实现图像风格迁移?深度学习实战教程
  • 人工智能AI赋能未来城市报告自然篇
  • 抓包技术如何帮助加盟创业者优化运营与决策分析
  • 第1天:HTML/CSS基础
  • 详解iOS应用上架App Store的五个步骤及注意事项
  • 怎么在线将 Markdown 表格转换为图片格式? - AI