当前位置: 首页 > news >正文

如何给 Reasoning 提供过程奖励?逻辑能力或许是激发通用推理能力的关键!

主题

如何给 Reasoning 提供过程奖励?逻辑能力或许是激发通用推理能力的关键!

时间

北京时间:2026.03.22 (周日) 11:00-12:00
美东时间:2026.03.21 (周六) 23:00-24:00
美西时间:2026.03.21 (周六) 20:00-21:00

直播平台

微信视频号:

b站直播间:

内容介绍

现有强化学习方法要么只以结果作为奖励,要么依赖模型自身信号(如置信度、PRM),但都无法评估推理逻辑的正确性。现有研究表明,逻辑与代码、数学一样是提升大模型推理能力的关键。所以本文探索了如果从逻辑的角度出发给推理过程打分,来进行强化学习从而提升大模型的逻辑推理能力,并且测试逻辑能力能否泛化到别的任务上。作者提出 LogicReward,将大模型的自然语言推理过程形式化后用一个验证器打分。但是,大模型在自然语言形式化上效果不好。比如说大模型在推理的时候会做很多隐性的假设,但是这些假设缺失的话会导致验证器的结果与实际结果不匹配。所以作者提出先用 LLM 自动补全在一个推理步骤中的所有假设或常识,再进行形式化验证,提高了形式化的准确率。更好的形式化也带来了更准确的 LogicReward,从而在后续强化学习中也提供了更准确的训练信号。实验结果表明,经过 LogicReward 构造的数据训练,大模型能在自然语言推理和逻辑推理任务上有很大的提升。并且,训练后的模型也能在分布外的任务上比如数学(GSM8K),常识推理(CommonsenseQA),演绎推理(BoarderGameQA)有很好的提升。说明将大模型在逻辑上对齐后,也能在别的任务上得到泛化。本文还做了很多实验分析,为后续大模型逻辑对齐指出了若干研究方向。

论文信息

  • 标题

    • LogicReward: Incentivizing LLM Reasoning Via Step-Wise Logical Supervision

  • 链接

    • https://arxiv.org/pdf/2512.18196

嘉宾

徐俊东,新加坡国立大学计算机系博士一年级,主要研究方向是大模型的推理能力,包括大模型的严谨逻辑推理,符号推理。他致力于探索 Neuro-Symbolic 的方法如何能让大模型的推理过程更可信和可验证。他作为第一作者在 Neuro-Symbolic 领域的多项研究成果已发表于 NeurIPS、ICLR、ACL、AAAI 等人工智能顶级会议,并获得 AAAI 2026 Symbolic and Logical Reasoning Workshop Best Paper Award。

个人主页:https://aiden0526.github.io/

主持人

罗盟,新加坡国立大学计算机系博士,主要研究方向包括认知驱动的多模态理解和推理、多模态情感分析、视频理解和生成等。

个人主页:https://eurekaleo.github.io/

入群

欢迎加入 NICE 每周分享交流群,可与 NICEer 唠嗑,以及第一时间收到后续 NICE 分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(Nexus forIntelligenCE)是一个由全球 50+ 位一线青年学者共同发起的顶尖 AI 前沿交流平台。 成立以来,我们汇聚海内外 300+ 嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超 13 万关注。目前,NICE 已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化 AI 前沿社区。

NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@niceaitalk

编辑 | 宁钰成 中国科学院大学

http://www.jsqmd.com/news/517587/

相关文章:

  • 【PLC C语言转换效率优化白皮书】:20年工控专家实测验证的7大编译瓶颈与3倍速代码落地方案
  • STM32 .map文件深度解析与Flash空间精简实战
  • (-aa-) 必要性:snap 关闭自动更新,snap包离线下载与安装的方法 (****)
  • 基于springboot心理健康平台project56740
  • ngrok 内网穿透实战:从零到精通的部署、配置与场景化应用指南
  • SEER‘S EYE 本地化部署详解:基于Ubuntu系统的环境配置与依赖安装
  • 为什么你的智能家居还是‘反应迟钝’?Agentic AI+提示工程给你答案
  • 法学论文降AI率推荐:法条引用多、专业术语密集怎么处理 - 我要发一区
  • Python爬虫实战:5分钟搞定豆瓣电影TOP250数据抓取(附完整代码)
  • KnowFlow 深度集成 MinerU 2.0:从 pipeline 到 vlm-sglang 的架构演进与精度飞跃
  • 探秘书匠策AI:课程论文写作的“全能魔法师”
  • 避坑指南:华为ME909在树莓派Zero W上的短信发送全流程(解决ttyUSB识别问题)
  • 从零打造ESP32桌面伴侣:Arduino驱动舵机与OLED的交互实践
  • Pixel Dimension Fissioner环境部署:Ubuntu 22.04 LTS + NVIDIA Driver 535部署记录
  • 2026年剖析SCI英文降重降AI公司,看看哪家口碑好 - myqiye
  • java毕业设计基于springboot校园易物平台-project24877
  • 阿里最新开源声音克隆神器:CosyVoice3保姆级教程,3秒复刻任何声音
  • 告别基础问答:用Cursor的MCP Server打造你的AI编程副驾(Filesystem+BrowserTools实战解析)
  • Gemini 3.1 Pro 2026年国内使用指南:技术解析与镜像站实测
  • 2026年分析SCI降重降AI服务哪个公司靠谱,英辑Editeg优势凸显 - mypinpai
  • py4DSTEM实战指南:4D-STEM数据处理的完整解决方案
  • 突破限制!微信小程序实现多文件上传的3种实战方案(含FormData polyfill)
  • 永辉购物卡回收技巧,轻松变现! - 团团收购物卡回收
  • Mosquitto密码文件深度解析:从加密原理到多用户管理技巧
  • 为什么 MySQL 索引用的是 B+ 树而不是红黑树?
  • Obsidian笔记中的外部图片如何实现永久存储与本地化管理?
  • Graph U-Nets实战:用PyTorch Geometric实现gPool和gUnpool的5个关键步骤
  • RS485接口EMC设计:三级防护与分地系统实战指南
  • 如何在E-HPC集群上快速部署LAMMPS与oneAPI环境(2023最新版)
  • 数字游民装备:OpenClaw+Qwen3-32B打造移动办公神器