当前位置：首页 > news >正文

通过世界模拟器进行具象化视觉空间推理 (Astra)

news 2026/8/1 22:59:36

通过世界模拟器进行具象化视觉空间推理 (Astra)

论文来源: arXiv:2606.06476 |主题: 空间推理、世界模拟器、强化学习、具身智能、思维链

📌 摘要与核心贡献

当前视觉语言模型（VLMs）虽然在视觉推理方面表现强劲，但在空间推理能力上仍局限于观察到的图像和面向文本的链式思维。本文提出Astra框架，将空间推理转化为交互式证据获取过程，通过自然语言相机运动指令主动查询世界模拟器（World Simulator）。

🌟 核心贡献

思考与具象化 (Thinking with Imagination)：通过世界模拟器将空间推理转化为交互式过程，实现跨视角一致性与推理未观察布局的能力。
Astra-WM (世界模拟器)：基于 Bagel 的模拟器，通过视图一致性调优生成空间一致的新视角。
Astra-VL (代理策略)：基于强化学习的策略模型（从 Qwen3-VL-8B 初始化），决定何时调用模拟器、选择相机运动并评估返回的观测结果。
RL 数据与策略：采用两阶段 RL 课程训练，通过硬样本保留策略构建了 6k 的高质量训练样本。

1. 核心架构与组件

组件	描述
Astra-WM	基于 Bagel 的模拟器，通过视图一致性调优 (View Consistency Tuning) 进行微调。利用上下文图像和相机运动指令生成空间一致的新视图。
Astra-VL	强化学习的代理策略（策略模型），从 Qwen3-VL-8B 初始化。决定何时调用模拟器、选择相机运动指令，并评估返回的观测结果。
交互格式	I^t+1=W(I1:t,rt,ut)\hat{I}_{t+1} = \mathcal{W}(\mathcal{I}_{1:t}, r_t, u_t)I^t+1=W(I1:t,rt,ut)，其中I1:t\mathcal{I}_{1:t}I1:t是上下文图像，rtr_trt是参考图像索引，utu_tut是自然语言相机运动指令。

2. 方法论与训练细节

2.1 视图一致性调优 (View Consistency Tuning)

数据：使用来自室内场景（ScanNet, Matterport3D, ARKitScenes, DL3DV）的544k个经过质量验证的 SFT 样本。
目标：确保生成的视图遵循请求的运动并保留场景布局。

2.2 Astra-VL 的两阶段强化学习 (RL) 课程

为了平衡直接回答与使用模拟器的能力，设计了以下奖励机制：

第一阶段（探索与工具获取）：防止策略崩溃为直接回答，并教有效交互：
ri(1)=riem+λfmtrifmt+λusemin⁡(nitool,c)r_i^{(1)} = r_i^{\text{em}} + \lambda_{\text{fmt}} r_i^{\text{fmt}} + \lambda_{\text{use}} \min(n_i^{\text{tool}}, c)ri(1)=riem+λfmtrifmt+λusemin(nitool,c)
第二阶段（选择性具象化）：仅在模拟器能提升直接回答效果时才鼓励使用：
Δi=ei−egdirect\Delta_i = e_i - e^{\text{direct}}_gΔi=ei−egdirect
ri(2)=riem+λfmtrifmt+λusemin⁡(nitool,c)+αmax⁡(0,Δi)−βmax⁡(0,−Δi)r_i^{(2)} = r_i^{\text{em}} + \lambda_{\text{fmt}} r_i^{\text{fmt}} + \lambda_{\text{use}} \min(n_i^{\text{tool}}, c) + \alpha \max(0, \Delta_i) - \beta \max(0, -\Delta_i)ri(2)=riem+λfmtrifmt+λusemin(nitool,c)+αmax(0,Δi)−βmax(0,−Δi)

RL 参数：

λfmt=0.5\lambda_{\text{fmt}} = 0.5λfmt=0.5
α=0.1\alpha = 0.1α=0.1
β=0.03\beta = 0.03β=0.03
c=1c = 1c=1
λuse=0.02\lambda_{\text{use}} = 0.02λuse=0.02
RL 数据构建：使用高温采样（temp=1.5）跨空间 QA 类别保留硬样本，最终得到6000个训练样本。

3. 实验评估与结果

3.1 基准测试结果

模型/指标	MMSI-Bench	MindCube
Qwen3-VL-8B (直接回答)	29.8	36.8
Astra-VL (代理式)	38.8(+9.0)	42.7(+5.9)
Gemini-3-Flash + Astra-WM	49.5(+4.4)	-
Gemini-3-Flash + Bagel	45.8	-

工作流程模式对比：

强制工具使用：改进了基于相机的关系（如 Cam.–Cam. ↑ 至 47.9），但由于噪声削弱了对象/区域中心关系。
代理式工具使用：通过自适应决定何时具象化、减少不必要的工具调用并正确评估证据，实现了整体最佳性能。

3.2 消融实验与洞察

模拟器质量：通用图像生成不足以保证空间推理，空间一致性（姿态和内容）至关重要。Astra-WM 在姿态一致性和内容保留方面显著优于现成的 Bagel。
策略选择性：访问模拟器本身可能因模型不知道何时/如何使用而降低性能。两阶段 RL 课程平衡了探索与选择性具象化。
失败模式：错误源于非 informative 动作、空间不一致的模拟器输出或错误评估。策略必须区分原始图像与生成的图像。

4. 局限性

奖励稀疏性：精确匹配差异是稀疏的，可能无法捕获部分有用的观测结果。
策略不稳定性：若调优不当，策略要么崩溃为直接回答，要么过度使用模拟器。
未来方向：更强的路由机制、优化期望信息增益、在工具观测后添加验证器式推理、构建偏好数据以区分有用/有害的工具调用。

http://www.jsqmd.com/news/958697/

相关文章：

股票逐笔和十档Tick数据今天就跟大家聊聊这些高频数据包里到底装了些什么

COM3D2.MaidFiddler完整指南：5步掌握实时女仆编辑器，打造个性化游戏体验

Qt图形视图里弹窗错位？手把手教你用QGraphicsProxyWidget正确处理ComboBox下拉列表

别再只问压差了！面试官想听的LDO性能指标详解（附Bandgap基准原理）

AI辅助开发：利用快马平台实现智能自适应的sweezy-cursors动画

用一块51单片机，我复刻了学生时代的DDS信号发生器（附AD9850/9851完整代码）

保姆级教程：Halcon 18.11.0.1 Windows版从下载到激活全流程（含GigE驱动安装）

鸿蒙开发--CANNKit-AscendC-sobel

SMT贴片加工锡膏储存和使用注意事项

杰理之IO_CONTROL 功能介绍可以参考【篇】

告别KD树搜索！用Voxelized GICP在CPU/GPU上实现120Hz的实时点云配准

终极免费Steam创意工坊下载器：无需客户端轻松获取千款游戏模组

碳硅共生认知场方程：碳基-硅基协同智能的数学基础（世毫九实验室原创研究）

别再手动调Excel了！Easypoi合并单元格与自适应行高避坑指南

【AI家庭中枢搭建指南】：20年智能家居架构师亲授7大避坑法则与实时联动配置秘籍

Mi-Create：如何为2021年后小米穿戴设备开发个性化表盘的完整技术指南

2023年软考-术资源的镜像数据库—软件设计师—东方仙盟

别再乱用马尔可夫链了！先花5分钟用Excel自带的CHISQ.TEST做个马氏性预检验

别再手动导ROM了！教你搭建一个免下载、即点即玩的Web版FC游戏库

OSPF联邦作业

【字节跳动】GR3六轴协作机械臂·底层裸数据机密台账（工业原始未脱敏完整版·万字归档版）

别再只盯着权重剪枝了！聊聊那些更‘实用’的CNN通道与过滤器剪枝实战

Windows用户福音：3分钟免费获取iPhone USB网络共享驱动终极方案

FPGA实现近传感器特征提取

OpenClaw从入门到应用——CLI：Gateway

别再手动算参数量了！用fvcore一键分析PyTorch模型（附ResNet50/VGG16实测对比）

Sunshine游戏串流实战指南：构建低延迟自托管云游戏平台的完整技术方案

无需安装python，用快马平台5分钟创建你的第一个交互式代码运行器

AI辅助设计：让快马为你构思并生成Harness流水线最佳实践代码

Markdown文档可视化技术突破：Typora drawIO插件架构解析与工程实践