当前位置: 首页 > news >正文

阿里:利用更新方向提升大模型推理

📖标题:On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
🌐来源:arXiv, 2603.22117v1

🛎️文章简介
🔸研究问题:现有研究多关注 RLVR 引起变化的幅度,如何从“更新方向”的视角更精准地识别并利用大模型推理能力提升的关键机制?
🔸主要贡献:论文提出带符号的对数概率差(∆logp)作为核心指标,揭示了 RLVR 更新的稀疏方向性,并据此设计了测试时外推和训练时重加权两种提升推理性能的新方法。

📝重点思路
🔸提出使用基座模型与 RLVR 模型之间的 token 级带符号对数概率差(∆logp)来量化分布变化的方向,以此替代仅衡量变化大小的熵或 KL 散度。
🔸通过统计分析和 Token 替换干预实验,验证了∆logp 能比幅度类指标更高效地定位少量但对推理至关重要的 Token 更新。
🔸从梯度角度解释稀疏性根源,发现 RLVR 的策略梯度天然集中在低概率 Token 上,而这些 Token 恰好对应最终模型中高∆logp 的位置。
🔸设计测试时选择性外推方法,在关键位置沿∆logp 方向进一步放大 RLVR 的策略分布,无需额外训练即可超越原模型性能。
🔸提出训练时概率感知优势重加权策略,通过增加低概率 Token 的权重,引导模型更专注于学习高∆logp 指示的关键推理步骤。

🔎分析总结
🔸幅度类指标(如熵、KL 散度)在基座和 RLVR 模型生成的 Token 分布上几乎一致,无法区分两者,而∆logp 呈现出清晰的双峰分布,有效捕捉了方向性偏移。
🔸在 Token 替换实验中,仅需替换约 10% 由∆logp 选定的 Token,基座模型即可恢复至 RLVR 模型的性能水平,其效率显著高于基于熵或散度的选择方法。
🔸梯度分析表明,RLVR 训练中绝大部分梯度范数来自低概率 Token,排除这些 Token 会导致推理性能急剧下降,证实了它们是推理提升的核心来源。
🔸测试时外推方法在多个数学基准测试中均取得了优于原始 RLVR 模型的结果,证明沿学习到的方向继续 extrapolate 能带来额外的推理增益。
🔸训练时重加权方法在不同模型规模和数据集上均稳定提升了推理准确率及探索能力(Pass@k),表现优于现有的其他重加权策略。

💡个人观点
论文论证了更新“方向”对于理解 RLVR 机制的关键作用解释了为何 RLVR 更新是稀疏的(集中于低概率 Token)。

http://www.jsqmd.com/news/620248/

相关文章:

  • 线上一按“导出”全站卡死!排查发现竟是“全局线程池”惹的祸...
  • ISSACSIM简单物体操作
  • OpenClaw自动化办公:用Phi-3-mini-128k-instruct实现周报生成与邮件发送
  • 从零到过等保:一个运维的实战踩坑记录(含拓扑图绘制工具与设备配置模板)
  • 告别玄学调试:用Vivado硬件管理器搞定Xilinx FPGA DDR4 MIG的读写时序与眼图分析
  • 大卫小东(Sheldon)恫
  • 镜像视界:以AI镜像孪生,引领视频孪生从“看见”到“可决策”的产业跃迁
  • Snack Json 流式解析与自动结构修复深度指南莆
  • AI 行为控制体系设计(OpenClaw 实战)
  • 手把手教你用AutoDL的V100-32GB实例,零成本体验Llama2-13B中文对话模型
  • 【研报298】新能源汽车需求跟踪报告:3月车企销量与海外市场表现
  • Qt项目实战:如何用pdfium动态库实现PDF高清渲染(附完整代码)
  • 燃料电池热管理控制,接受定制,单循环,双循环定制,效率
  • 八位行波进位加法器设计与Quartus II实现(附详细电路图)
  • 如何快速掌握SWE-bench:面向开发者的完整AI代码修复测试指南
  • VCS仿真Debug实战:巧用UCLI的stop -continue命令抓取信号跳变
  • SteamCleaner游戏空间清理完整指南:快速释放硬盘空间的终极解决方案
  • UE4 C++动态加载与实例化蓝图类的两种高效方法
  • Petalinux 2020.1 QSPI启动踩坑实录:手把手教你解决‘Bad data crc’和分区超限问题
  • Adafruit HMC5883L统一驱动库:SI单位直出与硬件抽象实践
  • GLM-OCR实战案例:教育行业试卷OCR+答案结构化提取完整方案
  • 鸿蒙游戏是不是风口?
  • 计算机毕业设计:Python气象数据爬取与智能分析平台 Django框架 线性回归 数据分析 大数据 机器学习 大模型 气象数据(建议收藏)✅
  • 黑客入门全技能盘点!零基础小白也能看懂的成长路线
  • MySQL优化全攻略:索引、SQL与分库分表的最佳实践纠
  • 不定长滑动窗口
  • 【C 语言系统入门教程】第 8 讲:VS 实用调试技巧 | 零基础学习笔记
  • 4000元作业批改准的学习机哪个好?2026兼顾护眼与批改的旗舰之选 - 速递信息
  • x64dbg实战指南:从零开始掌握程序调试与分析技巧
  • Maomi.In | .NET 全能多语言解决方案陀