当前位置: 首页 > news >正文

2025_NIPS_Sherlock: Self-Correcting Reasoning in Vision-Language Models

文章核心总结与翻译

一、主要内容

本文针对视觉语言模型(VLMs)在推理任务中存在的易受推理错误影响、依赖大量标注数据、泛化能力弱等问题,提出了名为Sherlock的自校正与自改进训练框架。该框架通过轨迹级自校正目标、基于视觉扰动的偏好数据构建方法和动态β偏好调优,仅使用20k标注数据即可让模型获得自校正能力,后续无需外部监督即可实现自改进。基于Llama3.2-Vision-11B模型的实验表明,Sherlock在8个基准测试中平均准确率达64.1(直接生成)和65.4(自校正后),优于LLaVA-CoT、Mulberry等现有模型,且标注数据用量不足这些模型的20%。

二、创新点

  1. 首次深入分析了推理型VLMs的自校正能力,发现现有模型(无论SFT还是RL训练)在步骤级和响应级自校正中表现极差,不足10%的样本能出现自校正信号且多数无法修正错误。
  2. 提出轨迹级自校正目标,仅修正推理轨迹中的错误后缀而非整个响应,提供更精准的学习信号。
  3. 设计基于视觉扰动的偏好数据构建方法,通过可控的质量差距生成偏好样本,无需额外验证器或大规模评论数据。
  4. 引入动态β参数适配样本质量差距,稳定偏好训练过程,同时实现无外部监督的迭代自改进。

三、核心部分翻译(Markdown格式)

Abstract(摘要)

推理型视觉语言模型(VLMs)在复杂多模态任务中展现出良好性能,但仍面临重大

http://www.jsqmd.com/news/407149/

相关文章:

  • 2026年热门的棉柔巾设备/高速棉柔巾设备厂家热卖产品推荐(近期) - 行业平台推荐
  • 2025_NIPS_Multi-Objective One-Shot Pruning for Large Language Models
  • 一用就上瘾!超好用的 AI 写作平台,文案 / 论文全搞定
  • 2026必备!降AIGC平台 千笔AI VS Checkjie,本科生专属高效降重方案
  • 如何打出间隔号
  • 利用AI Agent实现开源应用Helm Chart自动化生成:小白也能学会的实践指南(收藏版)
  • 上海融意网络:破解小程序开发痛点,实现一对一需求对接全流程落地,软件开发/小程序开发/网站开发,小程序开发机构口碑排行 - 品牌推荐师
  • 全面了解 Nginx 到底能做什么
  • 2026年2月烟台旅行社行业竞争格局深度分析报告 - 2026年企业推荐榜
  • 基于SSM的古籍图书网站[SSM]-计算机毕业设计源码+LW文档
  • PostgreSQL 入门学习教程,从入门到精通,PostgreSQL 16 语法知识点与案例详解(1)
  • 在 Spring Boot 中,如何干掉 if/else!
  • 强烈安利! 专科生专属AI论文平台,千笔AI VS 学术猹
  • 医疗数据测试革命:用Synthea破解隐私合规与测试效能的困局‌——软件测试工程师的合规化测试新范式
  • 阿里终面:如何设计一个高性能网关?
  • AI 编程颠覆开发范式:不会用 AI 的程序员将被淘汰
  • 专科生收藏!万众偏爱的降AIGC网站 —— 千笔·专业降AIGC智能体
  • 2026年质量好的业级液氮/机械加工液氮厂家选购完整指南 - 行业平台推荐
  • 这款 SQL自动检查神器,吊炸天的功能,真TMD多!!
  • 重读GraphRAG开山之作:知识图谱 + RAG 的融合革命
  • 本科毕业论文降AI工具怎么选?4款热门软件实测对比
  • 把坑都踩完了,AI论文工具 千笔AI VS 锐智 AI 更贴合专科生需求
  • 2026年专业的全自动油条机,全自动油条面胚成型机,仿手工油条机厂家行业优质名录 - 品牌鉴赏师
  • 便携式卫星气象水文数据广播接收系统
  • Agent 项目开发需求文档(全面优化版)
  • 2026年可靠的NASM健身教练,团操健身教练,IFBB健身教练培训学院实力推荐 - 品牌鉴赏师
  • 2026年可靠的法兰安全阀,低温阀门,温控阀厂家推荐榜单 - 品牌鉴赏师
  • 杰理之直播MIC【篇】
  • App Store模式过时了,未来属于即兴创作!Karpathy激进言论被「怼惨」
  • 2026年质量好的税务需求/税务稽查实用选择推荐 - 行业平台推荐