当前位置：首页 > news >正文

如何给 Reasoning 提供过程奖励？逻辑能力或许是激发通用推理能力的关键！

news 2026/7/5 8:57:23

主题

如何给 Reasoning 提供过程奖励？逻辑能力或许是激发通用推理能力的关键！

时间

北京时间：2026.03.22 (周日) 11:00-12:00
美东时间：2026.03.21 (周六) 23:00-24:00
美西时间：2026.03.21 (周六) 20:00-21:00

直播平台

微信视频号：

b站直播间：

内容介绍

现有强化学习方法要么只以结果作为奖励，要么依赖模型自身信号（如置信度、PRM），但都无法评估推理逻辑的正确性。现有研究表明，逻辑与代码、数学一样是提升大模型推理能力的关键。所以本文探索了如果从逻辑的角度出发给推理过程打分，来进行强化学习从而提升大模型的逻辑推理能力，并且测试逻辑能力能否泛化到别的任务上。作者提出 LogicReward，将大模型的自然语言推理过程形式化后用一个验证器打分。但是，大模型在自然语言形式化上效果不好。比如说大模型在推理的时候会做很多隐性的假设，但是这些假设缺失的话会导致验证器的结果与实际结果不匹配。所以作者提出先用 LLM 自动补全在一个推理步骤中的所有假设或常识，再进行形式化验证，提高了形式化的准确率。更好的形式化也带来了更准确的 LogicReward，从而在后续强化学习中也提供了更准确的训练信号。实验结果表明，经过 LogicReward 构造的数据训练，大模型能在自然语言推理和逻辑推理任务上有很大的提升。并且，训练后的模型也能在分布外的任务上比如数学（GSM8K），常识推理（CommonsenseQA），演绎推理（BoarderGameQA）有很好的提升。说明将大模型在逻辑上对齐后，也能在别的任务上得到泛化。本文还做了很多实验分析，为后续大模型逻辑对齐指出了若干研究方向。

论文信息

标题
- LogicReward: Incentivizing LLM Reasoning Via Step-Wise Logical Supervision
链接
- https://arxiv.org/pdf/2512.18196

嘉宾

徐俊东，新加坡国立大学计算机系博士一年级，主要研究方向是大模型的推理能力，包括大模型的严谨逻辑推理，符号推理。他致力于探索 Neuro-Symbolic 的方法如何能让大模型的推理过程更可信和可验证。他作为第一作者在 Neuro-Symbolic 领域的多项研究成果已发表于 NeurIPS、ICLR、ACL、AAAI 等人工智能顶级会议，并获得 AAAI 2026 Symbolic and Logical Reasoning Workshop Best Paper Award。

个人主页：https://aiden0526.github.io/

主持人

罗盟，新加坡国立大学计算机系博士，主要研究方向包括认知驱动的多模态理解和推理、多模态情感分析、视频理解和生成等。

个人主页：https://eurekaleo.github.io/

入群

欢迎加入 NICE 每周分享交流群，可与 NICEer 唠嗑，以及第一时间收到后续 NICE 分享报告的通知。加群通过小助手认证，群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE（Nexus forIntelligenCE）是一个由全球 50+ 位一线青年学者共同发起的顶尖 AI 前沿交流平台。成立以来，我们汇聚海内外 300+ 嘉宾，通过百余场线上深度分享与线下高规格活动（北京/上海/苏州等），全网积累超 13 万关注。目前，NICE 已构建起覆盖中、美、欧的国际化团队，正加速在硅谷、纽约、香港等地落地，致力于打造连接学术、产业与未来的全球化 AI 前沿社区。

NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@niceaitalk

编辑 | 宁钰成中国科学院大学

查看全文

http://www.jsqmd.com/news/517587/