当前位置: 首页 > news >正文

2025_NIPS_Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

一、主要内容总结

1. 研究背景与问题

现有视觉语言模型(VLMs)在多模态任务中表现出色,但缺乏复杂场景下的情境推理能力,难以支撑机器人、交互式助手等领域的决策需求。传统增强VLMs推理能力的方法依赖大规模图文配对数据,这类数据标注成本高、获取难度大,尤其在多样化现实决策场景中存在明显瓶颈。

2. 核心发现与假设

通过初步实验发现:当用文本描述替代视觉场景作为输入时,标准VLMs在VIVA、PCA-Bench等决策基准测试中表现相当甚至更优。由此提出核心假设:决策推理的核心能力可与视觉感知解耦,主要通过语言表征学习,再迁移到视觉接地的决策场景中(契合人类“基于语言构建情境心理模型进行推理”的认知逻辑)。

3. 模型设计与方法

提出Praxis-VLM,一种基于文本驱动强化学习的推理型VLM,核心流程包括三阶段:

  • 文本数据集构建:利用GPT-4o生成10K训练样本+1K验证样本,以文本描述替代视觉场景,构建决策导向的文本数据集(无需人工筛选);
  • 多阶段RL训练:采用GRPO算法,结合自适应R1奖励机制,分两阶段训练:
    • 阶段1(冷启动):基于geometry3k数据集,强化模型格式合规性与基础逻辑推理能力;<
http://www.jsqmd.com/news/488997/

相关文章:

  • UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗?
  • OBS怎么调美颜?OBS怎么打开美颜功能?
  • 新媒体内容创作:使用DeOldify为历史题材短视频生成彩色素材
  • SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站
  • vim使用verible插件进行verilog语法检查
  • MTP管理培训
  • 【Altium】解决Database连接报错问题
  • python常用库的学习
  • Nacos 3.0新特性解析:为什么控制台端口独立为8080?
  • ROS2 -03-工作空间与功能包
  • Symbol数据类型:特性解析与实战应用
  • C语言文件操作实战:读写二进制图片数据调用DeOldify服务
  • ROS2功能包构建与文件结构解析:从colcon编译到项目部署
  • Pytorch之torch.nn.Conv2d详解
  • 基于STC8H8K64U的光学仪器协同采集平台设计
  • OSPF与ISIS的区别
  • C#连接MySQL数据库报错排查:从SslMode=None到安全连接实践
  • Swift构造过程介绍
  • Swift 函数基础
  • 8元搞定Cursor永久账号:手把手教你用域名邮箱绕过限制(附Spaceship购买教程)
  • 以太网详解(七)TCP/IP四层模型与协议栈实战
  • PDSC文件详解:如何为你的MDK软件包编写完美的XML描述
  • Flux Sea Studio 海景摄影生成工具:Agent智能体架构设计——打造自主规划与迭代的海景创作智能体
  • CH552P低成本测温风扇控制器设计
  • OFA-iic/ofa_visual-entailment_snli-ve_large_en保姆级教程:开箱即用GPU推理全流程
  • JS 实现前端给图片加水印 及 叠加图片
  • Torch-TensorRT 相关
  • Android11系统定制实战:如何彻底禁用下拉状态栏(附完整代码修改)
  • 开源渗透测试项目
  • 图片变视频神器Wan2.2-I2V-A14B体验:480P高清流畅,效果惊艳