当前位置：首页 > news >正文

AAAI 2026 Oral｜论文解读：针对LLM外部推理的因果奖励调整方法

news 2026/7/6 16:20:11

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击阅读原文查看作者讲解

近日，实验室研究团队的论文“Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction”被人工智能会议大会（The 40th Annual AAAI Conference on Artificial Intelligence，简称AAAI）接收。AAAI是中国计算机学会（CCF）推荐的A类国际学术会议，在人工智能和机器学习领域享有很高的学术声誉。下面将对该论文做详细的解读，供大家交流学习。

概述

外部推理系统通过将大语言模型（LLMs）与过程奖励模型（PRMs）相结合，在数学问题求解等复杂任务上展现出强劲性能。这类方法依赖于PRM对推理路径进行评分，以引导搜索算法选择高质量解答。然而，这些系统容易遭受奖励黑客攻击，即PRM会将高分错误地赋予逻辑有缺陷的推理步骤，导致最终答案出错。从因果推断视角，我们构建了一个结构因果模型，揭示了语义混淆特征同时影响推理生成与奖励标注，形成后门路径并引入虚假关联。

基于此分析，我们得到两个关键发现：

（1）PRM在存在混淆时实际学习了特征出现概率而非逻辑正确性；

（2）通过后门调整可消除该混淆效应以恢复真实因果奖励。

沿此思路，我们提出Causal Reward Adjustment（CRA），通过三个核心步骤将因果结构融入奖励修正：一是训练稀疏自编码器提取PRM内部可解释特征；二是通过统计检验识别与奖励黑客行为显著相关的混淆特征；三是基于识别特征执行后门调整以消除虚假关联。

在GSM8K和MATH数据集上的实验表明，CRA显著降低奖励黑客影响并提升推理准确率，且无需修改策略模型或重训练PRM。

动机与分析

现有外部推理系统通过PRM对候选推理路径进行逐步评分，依赖beam search等算法选择高分路径作为最终答案。这种方法建立在一个关键假设之上：PRM的评分能够准确反映推理步骤的逻辑正确性。然而在真实场景中，该假设常常失效——如下图示例，在求解矩形内整数点问题时，PRM竟给"5 ≤ x ≤ -5"这种数学上自相矛盾的约束打出0.973的高分，仅仅因为该步骤在形式上"包含不等式组"这一表面特征。这类"奖励黑客"现象揭示出，PRM评分极易受到与逻辑无关的语义混淆特征干扰，如句式模板、关键词出现、步骤长度等。

进一步从因果角度来看，这些语义特征（如"书写不等式组"模式）在训练数据中同时高频出现在两类场景：一是被人类标注者偏好的解答风格中，二是逻辑错误的步骤中。这使得该特征成为一个典型的混淆变量：它既影响推理路径的生成（模型倾向输出带不等式组的步骤），也直接影响奖励标注（标注者看到不等式组就倾向给高分），形成一个后门路径。此时PRM学习的条件期望实际上退化为对混淆特征的检测，即判断"该步骤是否包含混淆特征"，而非评估"该步骤是否逻辑正确"。这种虚假关联导致系统错误地将高分赋予表面完美但实质谬误的推理步骤，最终损害整体推理质量。如何在不重训练PRM的前提下，切断这种后门路径、恢复对逻辑正确性的真实因果评估，成为我们工作的核心出发点。

图一：数学推理中的奖励黑客问题示例。括号内为PRM评分，绿色表示正确步骤，红色表示错误步骤。小黑客图标标识逻辑有缺陷但获得高分的奖励黑客实例。

实验

我们在 GSM8K 与 MATH 两大数学推理基准上系统评估了 CRA。基于 0.5B/3B/7B 等不同规模策略模型与 Math-Shepherd、Qwen2.5-Math-PRM 等主流奖励模型的交叉验证中，CRA 在所有配置下稳定优于原始 PRM 基线，MATH 数据集平均准确率提升 2.9 个百分点，GSM8K 提升 1.6 个百分点。此外，消融实验的干预效果可视化表明，CRA 对识别出的混淆特征进行因果干预时，能特异性地将奖励黑客步骤的分数降低约 0.04，而几乎不影响正常推理步骤，验证了因果特征识别与后门调整在精准抑制评分偏差的同时，保持了模型对正确逻辑的判别能力。

【论文信息】

论文作者：宋锐科*，宋泽恩*，郭慧杰，强文文

英文标题：Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾800场活动，超1000万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击阅读原文观看作者直播回放！