当前位置：首页 > news >正文

2025_NIPS_Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

news 2026/3/27 0:05:33

一、主要内容总结

1. 研究背景与问题

现有视觉语言模型（VLMs）在多模态任务中表现出色，但缺乏复杂场景下的情境推理能力，难以支撑机器人、交互式助手等领域的决策需求。传统增强VLMs推理能力的方法依赖大规模图文配对数据，这类数据标注成本高、获取难度大，尤其在多样化现实决策场景中存在明显瓶颈。

2. 核心发现与假设

通过初步实验发现：当用文本描述替代视觉场景作为输入时，标准VLMs在VIVA、PCA-Bench等决策基准测试中表现相当甚至更优。由此提出核心假设：决策推理的核心能力可与视觉感知解耦，主要通过语言表征学习，再迁移到视觉接地的决策场景中（契合人类“基于语言构建情境心理模型进行推理”的认知逻辑）。

3. 模型设计与方法

提出Praxis-VLM，一种基于文本驱动强化学习的推理型VLM，核心流程包括三阶段：

文本数据集构建：利用GPT-4o生成10K训练样本+1K验证样本，以文本描述替代视觉场景，构建决策导向的文本数据集（无需人工筛选）；
多阶段RL训练：采用GRPO算法，结合自适应R1奖励机制，分两阶段训练：
- 阶段1（冷启动）：基于geometry3k数据集，强化模型格式合规性与基础逻辑推理能力；<

http://www.jsqmd.com/news/488997/

相关文章：

UniG2U-Bench 论文解读：统一多模态模型真的提升了视觉理解吗？

OBS怎么调美颜？OBS怎么打开美颜功能？

新媒体内容创作：使用DeOldify为历史题材短视频生成彩色素材

SciDER：当AI学会从原始数据开始做科研，GPT-5也得靠边站

vim使用verible插件进行verilog语法检查

MTP管理培训

【Altium】解决Database连接报错问题

python常用库的学习

Nacos 3.0新特性解析：为什么控制台端口独立为8080？

ROS2 -03-工作空间与功能包

Symbol数据类型：特性解析与实战应用

C语言文件操作实战：读写二进制图片数据调用DeOldify服务

ROS2功能包构建与文件结构解析：从colcon编译到项目部署

Pytorch之torch.nn.Conv2d详解

基于STC8H8K64U的光学仪器协同采集平台设计

OSPF与ISIS的区别

C#连接MySQL数据库报错排查：从SslMode=None到安全连接实践

Swift构造过程介绍

Swift 函数基础

8元搞定Cursor永久账号：手把手教你用域名邮箱绕过限制（附Spaceship购买教程）

以太网详解（七）TCP/IP四层模型与协议栈实战

PDSC文件详解：如何为你的MDK软件包编写完美的XML描述

Flux Sea Studio 海景摄影生成工具：Agent智能体架构设计——打造自主规划与迭代的海景创作智能体

CH552P低成本测温风扇控制器设计

OFA-iic/ofa_visual-entailment_snli-ve_large_en保姆级教程：开箱即用GPU推理全流程

JS 实现前端给图片加水印及叠加图片

Torch-TensorRT 相关

Android11系统定制实战：如何彻底禁用下拉状态栏（附完整代码修改）

开源渗透测试项目

图片变视频神器Wan2.2-I2V-A14B体验：480P高清流畅，效果惊艳