当前位置：首页 > news >正文

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

news 2026/5/12 20:00:38

论文核心总结与翻译

一、主要内容

本文聚焦大型推理模型（LRMs）在长思维链（CoT）推理中存在的冗余问题，通过实证研究发现：LRMs 本身隐含"适时停止思考"的能力，但当前采样范式（如 pass@1）掩盖了这一潜力。

论文首先指出现有LRMs的核心困境：长思维链虽能提升复杂任务表现，但常包含大量无效冗余 token，导致推理效率低下；且更长的 CoT 与正确性无正相关，甚至可能降低准确率。为解决这一问题，论文提出两层方案：

SAGE 采样范式（Self-Aware Guided Efficient Reasoning）：基于模型自我置信度（累计对数概率 Φ），通过分步探索和终止机制，挖掘模型内在的高效推理链，在不损失准确性的前提下缩短 CoT 长度。
SAGE-RL 强化学习框架：将 SAGE 作为混合采样策略融入 RLVR（基于可验证奖励的强化学习）的rollout阶段，使模型在标准 pass@1 推理中习得高效推理模式，同时提升准确率和推理效率。

实验验证显示，SAGE-RL 在 MATH-500、AIME 2024/2025 等6个数学推理基准上表现优异，相比基线模型平均减少 44.1% 的 token 用量，同时准确率提升 2.1%，且在难任务上优势更显著。

二、创新点

发现核心现象：首次实证验证 LRMs 隐含"适时停止思考"的能力，该能力被当前采样范式掩盖，可通过扩大探索空间激活。

http://www.jsqmd.com/news/478071/

相关文章：

青龙面板配置避坑指南：让你的GitHub爬虫脚本稳定运行（Python3.8+实测）

毛玻璃效果实战：跨浏览器兼容的CSS3 backdrop-filter解决方案

AI Agents as Universal Task Solvers: It’s All About Time

Unsloth实战演练：从零开始微调一个中文对话模型全过程

Pico UnityXR中的手柄射线交互优化与事件封装

Midjourney vs Dall·E 3实战测评：电商产品图生成该选哪个AI工具？

The Trinity of Consistency as a Defining Principle for General World Models

小白友好！Qwen3Guard-Gen-WEB实战教程：快速搭建多语言内容审核系统

UCIe开源生态全景图：从伯克利研究到企业级解决方案（2023最新）

Scikit-learn模型部署超简单

MusePublic艺术创作引擎效果展示：这些惊艳人像作品，都是用AI生成的

Windows下用Anaconda一键搞定LabelImg安装（附Python3.8兼容方案）

DAMO-YOLO与Java SpringBoot集成：构建企业级手机检测API

Qwen-Image-2512-Pixel-Art-LoRA真实案例：从提示词输入到PNG下载的端到端效果演示

#第七届立创电赛# 基于N32G430与INA199的USB功率计设计与RGB彩灯扩展实战

我在非洲修电站，靠松鼠备份给家人“直播”我的生活——断网环境下的生存智慧

小白友好：Face Fusion镜像参数详解与效果调优指南

GTE文本向量模型快速部署：中文情感分析与文本分类实战指南

避开Dify模型配置的3个大坑：Ollama本地部署与Docker网络联调实战

飞牛fnOS实战：如何用旧笔记本搭建家庭NAS（Debian内核+VMware详细配置）

霜儿-汉服-造相Z-Turbo与计算机网络原理：理解模型API调用的HTTP/HTTPS协议细节

C++ 状态机模式解读

containerd安装后必做的5项配置：从镜像加速到systemd驱动

Wan2.2-T2V-A5B功能体验：轻量级模型也能有流畅的动态效果

口罩检测模型在工业安全场景的应用

【QML实战】打造丝滑体验：自定义滚动条详解-“延时隐藏”效果

Node版本切换不求人：手把手教你用nvm离线安装指定版本Node.js

Github 狂取12k star，堪称终端版Postman，也太炫酷了！

从零实现KNN：构建手写数字识别引擎的实战指南

Wan2.1-umt5实时翻译效果实测：支持多语种互译与领域适配