当前位置: 首页 > news >正文

如何给reasoning提供过程奖励?

当前主流强化学习方法在推理任务中主要采用两类奖励信号:

1️⃣ Outcome-only 奖励

仅依据最终答案是否正确进行打分。这种方式存在明显缺陷:

  • 模型可能通过错误甚至谬误的中间步骤“蒙对答案”

  • 强化学习会强化这种“捷径行为”

  • 无法确保推理过程可信

2️⃣ 概率或模型内部信号(如 PRM、置信度、LLM-as-judge)

这些方法提供过程监督,但本质仍是概率上的判断,无法对逻辑有效性给出形式化保证

已有研究表明,逻辑能力与代码、数学能力一样,是提升泛化推理能力的关键。因此,问题转化为:

能否设计一种奖励机制,在推理的每一步都具备“逻辑可验证性”?

因此,新国立等研究机构在这个背景下提出LogicReward,通过step-level的逻辑奖励信号来提升大模型的通用推理能力

核心方法

LogicReward 从逻辑角度拆解“高质量推理”的构成,将其分解为两个关键维度:

1️⃣ Step-level 逻辑监督:Premise (前提) + Logic (推理) 双验证

对于每一步推理,LogicReward计算两个核心指标:

✅ Premise Validity(前提有效性)

  • 判断当前步骤所引用的前提是否真实来自题目给定前提

  • 通过语义相似度与结构匹配确保 grounding 正确

避免模型“凭空编造前提”。

✅ Logic Validity(逻辑有效性)

  • 使用自动定理证明器(Isabelle/HOL)验证当前推理步骤是否逻辑成立

  • 将自然语言步骤形式化为逻辑表达式

  • 检查推理规则是否满足逻辑推导原则

只有当每一步都满足逻辑约束,才给予高分。

但是有的情况下,大模型将自然语言推理转化成逻辑形式时会失败,导致定理证明器无法求解。这种情况下,我们会回退到使用这条推理路径的Average Token Probability。

🔁 综合为 Reasoning Validity

  • 聚合所有 step-level 的分数Logic Validity

  • 与最终答案正确性(Outcome Validity)结合

  • 构造最终的 LogicScore 作为强化学习奖励信号

这意味着推理过程本身成为优化目标,而不仅仅是答案。

核心难题:自然语言形式化的挑战

理想很丰满,但实践中的挑战不容忽视。直接将自然语言推理转换成逻辑表达式,常会遭遇三大问题:

  • 语法错误:生成的内容不符合定理证明器的语法。

  • 隐含信息丢失:人类推理默认省略的常识,在形式化过程中丢失了。

  • 表达不一致:相同含义用不同词语表达(如“父亲”和“爸爸”),在符号层面被视作完全不同的东西。

这些问题常导致证明失败,但这并非真正的逻辑错误,而是“翻译”问题。

关键创新:Autoformalization with Soft Unification

为解决自然语言到符号表达的对齐问题,LogicReward 提出:

Autoformalization with Soft Unification

其核心思想是: 让大模型自己充当“翻译官”和“补全者”。在将推理送给定理证明器进行严格验证之前,先让模型:

  1. 自动补全推理中隐含的常识与假设。

  2. 统一相同语义但不同表述的谓词(如将“Dad”和“Father”统一)。

  3. 构建一个更完整、更规范的中间逻辑表示。

这样一来,定理证明器接收到的就是一份清晰、规范的逻辑符号,能更准确地判断其逻辑有效性,大幅减少因表达差异导致的误判。

强化学习框架

LogicReward将上述逻辑验证机制深度融入强化学习训练流程:

  1. 打分:对模型的推理路径进行逻辑打分(LogicScore)。

  2. 筛选:基于分数构建高质量的正样本(高分)与负样本(低分)对。

  3. 训练:通过SFT(监督微调)和DPO(直接偏好优化)等方式,利用这些经过逻辑验证的数据来训练模型。

实验结果亮点

在 Llama-3.1-8B 与 Qwen3-8B 上进行训练后:

  • 显著提升:在多个标准推理数据集上平均性能显著提升。

  • 小模型超越大模型:经过LogicReward训练的8B参数模型,其推理能力甚至能超越未专门训练的GPT-4o等更大模型。

🔐 可信度提升:更加可信:模型“逻辑错误但答案正确”的比例显著下降,推理过程的逻辑一致性大幅提高。

🌍 强泛化能力(OOD)

在未训练任务上仍保持稳健表现:

🧮 GSM8K —— 数学推理
🌍 CommonsenseQA —— 常识推理
🧩 Big-Bench Hard —— 复杂逻辑推理

证明逻辑奖励具有显著可迁移性。

并且在拿掉outcome的奖励信号后,LogicReward表现依旧超越基于概率的过程奖励

写在最后

LogicReward的贡献不仅在于性能提升,更在于:

  • 将“逻辑有效性”引入强化学习奖励设计

  • 提供可验证的 step-level 监督信号

  • 减少错误推理路径被强化的风险

  • 进一步证明提升逻辑是重要的基础能力之一,提升逻辑能带来不同推理任务的提升

  • 通过形式化逻辑验证与step-level奖励机制,使大模型推理更严谨、更可信、更具泛化能力

开源信息

  • 标题:LogicReward: Incentivizing LLM Reasoning via Step-Wise Logical Supervision

  • 论文:https://arxiv.org/pdf/2512.18196

  • 代码:https://github.com/Aiden0526/Logic-Reward

  • 项目主页:https://llm-symbol.github.io/LogicReward/

  • HuggingFace模型:https://huggingface.co/collections/Aiden0526/logicreward

http://www.jsqmd.com/news/425824/

相关文章:

  • 2026年五金模具清洗机厂家权威推荐榜:通过式清洗机、通过式清洗机、高压清洗机、高压清洗机、全自动超声波清洗机选择指南 - 优质品牌商家
  • 零基础玩转AI智能体:手把手教你用Nanbeige4.1-3B搭建自己的代码助手和搜索工具
  • JPEXS Free Flash Decompiler:SWF逆向工程技术解密与实战指南
  • tao-8k嵌入向量标准化实践:L2归一化对余弦相似度计算精度提升实证
  • B站视频下载突破限制:bilibili-downloader高效解决方案
  • Qwen3-0.6B-FP8快速入门:开箱即用Web界面,零基础开启AI对话
  • 2026年超声波清洗机厂家最新推荐:医疗器械清洗机/半自动超声波清洗机/单槽超声波清洗机/多槽超声波清洗机/实验室超声波清洗机/选择指南 - 优质品牌商家
  • HK1 Box 安装 Armbian 系统故障排查指南:从启动失败到系统恢复的完整解决方案
  • 突破云盘限速瓶颈:六大平台通用加速方案
  • 2026年电缆厂家厂家最新推荐:成都线缆生产厂家、无卤低烟电缆厂家、电线电缆品牌十大排名、电缆厂家十大排名、矿物质防火电缆厂家选择指南 - 优质品牌商家
  • Umi-OCR启动加载异常:从环境检测到深度修复的全流程方案
  • 告别网盘限速困扰:六大云盘直链工具全攻略
  • 5个超实用多平台推流技巧:obs-multi-rtmp让直播影响力翻倍
  • 《OpenWrt编译实战》第二章:在Ubuntu 20.04上为Newifi Mini定制高性能固件
  • Stable-Diffusion-v1-5-archiveWebUI源码级理解:前端交互逻辑与后端API映射关系
  • 抖音内容批量获取高效解决方案:从技术原理到场景落地
  • bilibili-linux全面解析:Linux平台B站客户端从入门到精通
  • 一键启动!Gemma-3-12B-IT图形化聊天界面部署与使用全攻略
  • mPLUG图文问答效果展示:直播截图→识别主播服装/背景道具/实时字幕内容
  • Lumafly:智能管理空洞骑士模组的跨平台工具
  • N_m3u8DL-RE:跨平台流媒体下载工具的全方位解决方案
  • 7大核心功能打造专业级直播视觉体验:StreamFX插件全攻略
  • Ostrakon-VL-8B实际效果:冷冻柜结霜程度量化评估+清洁建议生成样例
  • Ostrakon-VL-8B实战手册:批量图片上传+统一提示词模板的高效巡检模式
  • 大数据领域数据建模的深度学习模型构建
  • 2026年单位搬家厂家推荐:宜宾写字楼搬迁/宜宾别墅搬家/宜宾办公室搬迁/宜宾医院搬迁/宜宾单位搬家/宜宾学校搬迁/选择指南 - 优质品牌商家
  • 旧设备重生: Legacy iOS Kit 全流程优化指南
  • 视频PPT智能提取:解决课件整理痛点的高效解决方案
  • 2026年宜宾跨市搬家厂家权威推荐榜:宜宾店铺搬迁/宜宾异地搬家/宜宾搬迁厂房/宜宾机器搬迁/宜宾酒店宾馆搬迁/选择指南 - 优质品牌商家
  • RuoYi-Oracle:企业级Oracle数据库解决方案的架构解析与实践指南