当前位置: 首页 > news >正文

【论文阅读】VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

快速了解部分

基础信息(英文):

1.题目: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
2.时间: 2026.02
3.机构: ByteDance Seed, Beijing Jiaotong University
4.3个英文关键词: Transferable Knowledge, Real-world Videos, Latent Dynamics

1句话通俗总结本文干了什么事情

本文提出了一种新方法,让AI通过看无标签的真实世界视频(如手工折纸)来学习通用的技能和物理规律,并能举一反三应用到新环境(如不同背景的桌面)中。

研究痛点:现有研究不足 / 要解决的具体问题

现有视频生成模型(如Sora等)虽然画面逼真,但学不到任务核心的物理规律和动作逻辑;而现有的世界模型(World Models)难以处理真实世界复杂的视觉干扰,无法从长视频中提取可迁移的通用知识。

核心方法:关键技术、模型或研究设计(简要)

提出dLDM(动力学增强的潜在动力学模型),核心思想是将“画面外观”和“动作逻辑”解耦:用预训练模型处理画面细节,用专门设计的模型提取核心动作逻辑。

深入了解部分

作者想要表达什么

作者想表达:要想让AI从真实视频中学会通用技能,必须强制将“外观(长得什么样)”和“动力学(怎么动、物理规律)”分离开。如果混在一起学,复杂的外观细节会干扰对核心动作逻辑的提取,导致AI换个环境(如换个桌布)就不会做事了。

相比前人创新在哪里

  1. 解耦方式创新:不同于前人用简单的编码器解码器(VAE)试图同时压缩画面和动作,本文利用强大的**预训练视频扩散模型(VDM)**专门负责“画画”(外观),迫使潜变量只去学“动作”(动力学)。
  2. 长视野能力:专门针对长时间、多步骤的复杂任务(如折纸飞机)进行了优化,能处理分钟级的长视频,而不仅仅是短动作。

解决方法/算法的通俗解释

想象一个学徒在看老师傅做木工。

  • 旧方法:让学徒死记硬背老师的每一个表情、皱纹和衣服褶子,同时学动作。这导致学徒一旦换了环境(比如光线不同)就懵了。
  • 本文方法(VideoWorld 2):给学徒配了一个专门的“美术老师”(预训练VDM),负责处理画面细节。学徒(dLDM)只需要专注于观察木头是怎么被切削、拼接的(核心动作)。这样,学徒学到的是通用的“切削逻辑”,不管在谁家的工坊都能干活。

解决方法的具体做法

  1. 双模型架构
    • 外观模型(VDM):冻结参数的预训练视频生成模型,负责把粗糙的画面变成高清画面。
    • 动力学模型(dLDM):包含一个因果VQ-VAE,负责把视频中的“变化”压缩成一串极简的“动作代码”(Latent Codes)。
  2. 强制分工:训练时,动力学模型产生的粗糙画面作为VDM的参考(类似线稿),VDM负责上色和细节。通过这种机制,动力学模型被迫只提取任务核心的动作信息,因为细节反正有VDM来补全。
  3. 预测与执行:用一个自回归Transformer模型来预测这些“动作代码”,从而实现对长视频任务的生成和执行。

基于前人的哪些方法

  1. **VideoWorld **:本文的前身,但在真实世界视频上表现不佳,因为没能很好地区分外观和动作。
  2. VDM(Video Diffusion Models):如Cosmos等大规模预训练视频生成模型,提供了强大的外观先验知识。
  3. LDM(潜在动力学模型):利用离散潜变量来压缩视频信息的方法。

实验设置、数据、评估方式、结论

  • 数据
    • Video-CraftBench(本文新建):包含折纸飞机/船、搭积木等手工任务的视频(约7小时)。
    • Open-X:大规模机器人操作数据集。
    • CALVIN:机器人仿真环境(用于测试泛化能力)。
  • 评估
    • 任务成功率:生成的视频是否完成了正确的步骤(如折纸的7个关键步骤)。
    • 视觉质量:SSIM, LPIPS指标。
  • 结论
    • 在折纸任务中,VideoWorld 2的最终步骤成功率高达68.8%,而对比的SOTA视频生成模型(如Wan, HunyuanVideo)几乎全军覆没(0%)。
    • 在CALVIN环境中的跨域测试也证明了其极强的泛化能力。

提到的同类工作

  • **VideoWorld **:最直接的前身,但在真实场景下失败。
  • **LAPA , Moto , iVideoGPT **:其他潜在动作模型(Latent Action Models),在长视频任务上表现不如本文方法。
  • Sora, Veo, HunyuanVideo, Wan:主流的视频生成大模型,虽然画面好,但学不到物理规律。

和本文相关性最高的3个文献

  1. ** VideoWorld**:本文的直接前身,本文旨在解决其在真实世界失效的问题。
  2. ** Cosmos**:提供了基础的AR Transformer和VDM模型架构,是本文的基座模型。
  3. ** LAPA**:代表了现有的潜在动作模型(Latent Action Models)流派,是本文主要的对比基线之一。
http://www.jsqmd.com/news/474832/

相关文章:

  • C++初阶之类和对象》【初始化列表 + 自定义类型转换 + static成员】
  • 2026年热门上线即送神装的传奇网页游戏精选
  • 基于S7 - 200 PLC和组态王小区变频恒压供水控制系统设计
  • 2026工业废气治理设备厂家+中水回用水处理系统厂家+一体化污水处理设备厂家-石家庄天旺环保科技领衔 - 栗子测评
  • Claude 5天重写老库引全网争议,维护者擅自更换开源协议,退网15年原作者突然现身:不准改!
  • 《C++初阶之类和对象》【友元 + 内部类 + 匿名对象】
  • 当变频器遇上S7-200:一个水厂老司机的自白
  • 基于CW32F030C8T6的BMP180气压传感器I2C驱动移植与海拔测量实战
  • 《C++初阶之STL》【auto关键字 + 范围for循环 + 迭代器】
  • 2026年混凝土外加剂实力厂家甄选指南与TOP5推荐 - 2026年企业推荐榜
  • 八皇后(dfs 模版
  • YOLOv5+GraspNet实战:如何用Python快速搭建机械臂抓取系统(附完整代码)
  • ESP32S3基础2-多任务处理、EXTI中断、时钟与定时器
  • MySQL【表的约束下】
  • 手把手教你用阿里云镜像制作glibc.i686离线安装包(CentOS7专属)
  • [特殊字符] Nano-Banana实战案例:从手机到家电,全品类产品拆解图生成实录
  • Zotero7文献笔记模版:从安装到自定义的完整指南
  • 喜讯!第十六批生成合成类算法备案备案号公布
  • 天梯赛编程题 L2—048 寻宝图 题解
  • 软件安全实战指南:从零日漏洞到安全部署的核心要义
  • Visual Studio误删.vcxproj.filters文件?3步教你手动重建(附模板)
  • Unity URP渲染管线进阶---自定义RendererFeature实战解析
  • 阿姆智创21.5寸嵌入式工控一体机,多场景智造的嵌入式终端,源头工厂ODM定制应用
  • 衡山派D133EBS开发板驱动MS1100 VOC气体传感器实战指南
  • Linux用户必备:5款免费CAD软件实测对比(附安装指南)
  • OpenMV实战指南:sensor与image模块的高效配置与图像处理技巧
  • 从SCAU综合实验到实战:C语言文件操作与字符处理的进阶解析
  • 避坑指南:PyQt5+Matplotlib动态绘图卡顿?试试这3种优化方案
  • PyTorch量化实战:从模型压缩到移动端部署
  • ENVI遥感图像处理入门实战:从数据加载到基础分析