当前位置：首页 > news >正文

【论文阅读】VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

news 2026/6/27 7:44:47

快速了解部分

基础信息（英文）：

1.题目: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
2.时间: 2026.02
3.机构: ByteDance Seed, Beijing Jiaotong University
4.3个英文关键词: Transferable Knowledge, Real-world Videos, Latent Dynamics

1句话通俗总结本文干了什么事情

本文提出了一种新方法，让AI通过看无标签的真实世界视频（如手工折纸）来学习通用的技能和物理规律，并能举一反三应用到新环境（如不同背景的桌面）中。

研究痛点：现有研究不足 / 要解决的具体问题

现有视频生成模型（如Sora等）虽然画面逼真，但学不到任务核心的物理规律和动作逻辑；而现有的世界模型（World Models）难以处理真实世界复杂的视觉干扰，无法从长视频中提取可迁移的通用知识。

核心方法：关键技术、模型或研究设计（简要）

提出dLDM（动力学增强的潜在动力学模型），核心思想是将“画面外观”和“动作逻辑”解耦：用预训练模型处理画面细节，用专门设计的模型提取核心动作逻辑。

深入了解部分

作者想要表达什么

作者想表达：要想让AI从真实视频中学会通用技能，必须强制将“外观（长得什么样）”和“动力学（怎么动、物理规律）”分离开。如果混在一起学，复杂的外观细节会干扰对核心动作逻辑的提取，导致AI换个环境（如换个桌布）就不会做事了。

相比前人创新在哪里

解耦方式创新：不同于前人用简单的编码器解码器（VAE）试图同时压缩画面和动作，本文利用强大的**预训练视频扩散模型（VDM）**专门负责“画画”（外观），迫使潜变量只去学“动作”（动力学）。
长视野能力：专门针对长时间、多步骤的复杂任务（如折纸飞机）进行了优化，能处理分钟级的长视频，而不仅仅是短动作。

解决方法/算法的通俗解释

想象一个学徒在看老师傅做木工。

旧方法：让学徒死记硬背老师的每一个表情、皱纹和衣服褶子，同时学动作。这导致学徒一旦换了环境（比如光线不同）就懵了。
本文方法（VideoWorld 2）：给学徒配了一个专门的“美术老师”（预训练VDM），负责处理画面细节。学徒（dLDM）只需要专注于观察木头是怎么被切削、拼接的（核心动作）。这样，学徒学到的是通用的“切削逻辑”，不管在谁家的工坊都能干活。

解决方法的具体做法

双模型架构：
- 外观模型（VDM）：冻结参数的预训练视频生成模型，负责把粗糙的画面变成高清画面。
- 动力学模型（dLDM）：包含一个因果VQ-VAE，负责把视频中的“变化”压缩成一串极简的“动作代码”（Latent Codes）。
强制分工：训练时，动力学模型产生的粗糙画面作为VDM的参考（类似线稿），VDM负责上色和细节。通过这种机制，动力学模型被迫只提取任务核心的动作信息，因为细节反正有VDM来补全。
预测与执行：用一个自回归Transformer模型来预测这些“动作代码”，从而实现对长视频任务的生成和执行。

基于前人的哪些方法

**VideoWorld **：本文的前身，但在真实世界视频上表现不佳，因为没能很好地区分外观和动作。
VDM（Video Diffusion Models）：如Cosmos等大规模预训练视频生成模型，提供了强大的外观先验知识。
LDM（潜在动力学模型）：利用离散潜变量来压缩视频信息的方法。

实验设置、数据、评估方式、结论

数据：
- Video-CraftBench（本文新建）：包含折纸飞机/船、搭积木等手工任务的视频（约7小时）。
- Open-X：大规模机器人操作数据集。
- CALVIN：机器人仿真环境（用于测试泛化能力）。
评估：
- 任务成功率：生成的视频是否完成了正确的步骤（如折纸的7个关键步骤）。
- 视觉质量：SSIM, LPIPS指标。
结论：
- 在折纸任务中，VideoWorld 2的最终步骤成功率高达68.8%，而对比的SOTA视频生成模型（如Wan, HunyuanVideo）几乎全军覆没（0%）。
- 在CALVIN环境中的跨域测试也证明了其极强的泛化能力。