当前位置：首页 > news >正文

斯坦福大学李飞飞教授团队最新成果，针对具身差异，从零成本视频生成用于交互的3D物体流

news 2026/3/26 18:29:40

Dream2Flow，

简单来说，生成式视频模型能根据文字指令 + 初始图像，

“想象” 出人类完成任务的视频（像把面包放进碗），

但机器人看不懂这些人类动作，

没法把视频里的人类操作转化为自己的机械臂 / 关节运动指令，

毕竟机器人不知道怎么动机械臂才能复刻视频里的动作。

Dream2Flow解决的就是，构建视频想象和机器人执行的桥梁，让机器人不用专门训练（零样本），

就能跟着视频模型的 “想象”，

完成对各种物体（硬的、能动的、软的、颗粒状的）的操控，不用依赖特定任务的演示数据。

arxiv 2512.24766

Dream2Flow 利用现成的视频生成模型，在机器人所处的同一场景中生成任务执行过程的视频。

随后，该框架从视频的运动信息中提取 3D 物体流，支持机器人在多种任务中进行下游规划与执行。

示例任务：打开烤面包机、拉开抽屉、将面包放入碗中、将马克杯放入绿色碗中、将 T 型块推至中心、拉出椅子、回收易拉罐、清扫意大利面、打开烤箱、用围巾盖住碗、将面包放入碗中。

摘要：

生成式视频建模已成为一种极具潜力的工具，能够针对开放场景操控任务，对合理的物理交互过程进行零样本推理。然而，如何将这类由人类主导的动作转化为机器人系统所需的底层动作指令，至今仍是一项难题。研究发现，当输入初始图像与任务指令时，这类模型能够出色地合成合理的物体运动轨迹。基于此，我们提出了 Dream2Flow 框架，该框架以3D 物体流

查看全文

http://www.jsqmd.com/news/187784/