当前位置：首页 > news >正文

2B参数Spatial-TTT入选ECCV 2026，长视频处理与空间推理能力领先，节省超40%显存与计算

news 2026/6/23 19:18:03

空间理解难题与流式空间智能门槛

在机器人、自动驾驶、AR等真实场景中，空间理解绝非“看一眼图像”就能解决。相机移动、视角变化、目标隐现，使空间信息分散在长时间视频流里，模型需“记得住、连得起来、还能持续更新”，这让流式空间智能成为多模态大模型迈向真实世界应用的关键门槛。

文章思考与Spatial-TTT入选

这篇文章思考的是：多模态Agent如何在动态变化的世界中持续更新自己，而非每次都像首次看见世界。真实世界是一段持续展开的经验流，就像人理解空间，是在移动、观察、遗忘、修正中形成稳定的空间记忆。近日，清华大学博士生刘芳甫担任一作，联合多位研究者完成的Spatial-TTT，被计算机视觉顶级会议ECCV 2026正式接收。ECCV与CVPR、ICCV并称为计算机视觉三大顶级会议，每两年举办一届，录用率常年偏低。入选ECCV意味着研究要接受严格的同行评审。

Spatial-TTT核心问题与实验结果

Spatial-TTT瞄准的是多模态模型从“看懂画面”迈向“理解真实空间”的核心问题：视频延长时，模型能否不依赖无限膨胀的上下文，持续形成并更新空间记忆？实验中，仅有2B参数的Spatial-TTT，在多个专项空间智能基准上超过GPT-5、Gemini-3-pro等闭源模型，能处理最长120分钟的流式视频。其答案是：让模型在观看过程中，边看、边更新、边“长出”空间记忆。

空间智能难点与TTT新可能

空间智能的难点并非“把上下文做长”，而是空间信息在时间维度上的选择、组织和保留。真实场景中，模型面对持续涌入的视觉流，相机移动、遮挡、物体显隐使关键证据分散。现有方法多局限于单张图像或短视频片段，难以扩展到长时程流式视频。问题核心是模型缺少将新观察吸收进内部状态并组织成空间记忆的机制，传统静态推理范式难以解决，而TTT提供了新可能，让模型在推理时边看边更新参数，用参数变化承担记忆功能。

Spatial-TTT动态记忆解决方案

为应对挑战，研究团队提出Spatial-TTT，将fast weights作为紧凑的非线性记忆，在处理视频流时在线更新，累积跨时间的3D空间证据。它更像是持续“维护一份空间状态”，新视频chunk到来时，对已有空间记忆做增量式刷新。

设计一：混合式TTT架构

直接替换所有注意力层为TTT层会破坏模型语义能力。为此，研究团队设计混合式TTT架构，在解码器中按3:1比例交错插入TTT层与标准self-attention anchor layers，75%的层采用TTT负责长程信息写入，25%的层保留标准全注意力维持语义理解和跨模态推理能力。同时，引入large-chunk更新和并行的sliding-window attention，提升处理效率，保证局部时空建模能力。

设计二：Spatial-predictive mechanism

传统TTT忽略视觉token局部几何结构和时间连续性，不利于空间状态更新。Spatial-TTT在TTT分支引入空间预测机制，对Q/K/V加入轻量级3D时空卷积，使fast weights学到时空上下文的预测关系，增强在线更新稳定性与有效性。

设计三：稠密场景描述监督

现有空间智能数据多为稀疏、局部的Q&A监督，对fast weights学习长期更新动态帮助有限。研究团队构建稠密的3D场景描述数据，采用两阶段spatial-aware progressive training方式，先让模型学习“记住整个空间”，再强化流式空间推理能力。

实验结果：性能卓越

实验结果显示，Spatial-TTT在多个空间智能基准上表现出色。在VSI-Bench上，Spatial-TTT-2B取得64.4的平均分，在多个任务上表现突出。在MindCube-Tiny上，准确率达76.2%，比最强闭源基线Gemini-3-pro高出12个百分点，比代表性开源空间模型MindCube-3B高出近25个百分点。在VSI-SUPER系列任务上，Spatial-TTT优势放大，能在长时程下保持稳定。

深度分析：协同发力

消融实验表明，Spatial-TTT的性能提升是三个设计协同的结果。去掉空间预测机制，VSI-Bench平均分从64.4降到62.1；去掉密集场景描述监督，降到61.3；去掉混合架构只用纯TTT结构，平均分掉到53.9。效率分析显示，Spatial-TTT在长上下文下实现超过40%的显存与计算节省。

总结与展望：持续世界状态建模

Spatial-TTT不仅取得领先成绩，还提供了重新理解长视频记忆问题的方式。传统长上下文方案保留历史内容，Spatial-TTT追问模型能否将视觉观察转化为可更新、修正和调用的内部空间状态。这对物理Agent系统很重要，它们需积累空间经验，让观察影响后续感知与决策。这项入选ECCV 2026的工作，提供了从流式视觉感知走向持续世界状态建模的路径。

查看全文

http://www.jsqmd.com/news/1068815/