当前位置: 首页 > news >正文

斯坦福大学李飞飞教授团队最新成果,针对具身差异,从零成本视频生成用于交互的3D物体流

Dream2Flow,

简单来说,生成式视频模型能根据文字指令 + 初始图像,

“想象” 出人类完成任务的视频(像把面包放进碗),

但机器人看不懂这些人类动作,

没法把视频里的人类操作转化为自己的机械臂 / 关节运动指令,

毕竟机器人不知道怎么动机械臂才能复刻视频里的动作。

Dream2Flow解决的就是,构建视频想象和机器人执行的桥梁,让机器人不用专门训练(零样本),

就能跟着视频模型的 “想象”,

完成对各种物体(硬的、能动的、软的、颗粒状的)的操控,不用依赖特定任务的演示数据。

arxiv 2512.24766

Dream2Flow 利用现成的视频生成模型,在机器人所处的同一场景中生成任务执行过程的视频。

随后,该框架从视频的运动信息中提取 3D 物体流,支持机器人在多种任务中进行下游规划与执行。

示例任务:打开烤面包机、拉开抽屉、将面包放入碗中、将马克杯放入绿色碗中、将 T 型块推至中心、拉出椅子、回收易拉罐、清扫意大利面、打开烤箱、用围巾盖住碗、将面包放入碗中。

摘要:

生成式视频建模已成为一种极具潜力的工具,能够针对开放场景操控任务,对合理的物理交互过程进行零样本推理。然而,如何将这类由人类主导的动作转化为机器人系统所需的底层动作指令,至今仍是一项难题。研究发现,当输入初始图像与任务指令时,这类模型能够出色地合成合理的物体运动轨迹。基于此,我们提出了 Dream2Flow 框架,该框架以3D 物体流

http://www.jsqmd.com/news/187784/

相关文章:

  • 2026玉溪婚纱摄影主流商家星级综合排名(多维度权威测评) - 提酒换清欢
  • 【C++游戏引擎开发必读】:揭秘顶级引擎背后可扩展架构的7个设计模式
  • 跨编译器兼容问题全解析,深度解读C++网络模块在GCC与MSVC间的差异
  • 洛谷 P2918 [USACO08NOV] Buying Hay S 题解
  • 基于 NumPy 的矩阵卷积操作详解 - 可视化教程
  • UltraISO注册码最新版获取渠道汇总(附光盘镜像OCR处理建议)
  • sqlmap 常用汉化
  • 计算机毕业设计springboot商洛学院培训过程管理平台 基于Spring Boot的商洛学院培训流程管理系统设计与实现 商洛学院培训过程管理平台的Spring Boot架构开发
  • Python+FFmpeg/CMD根据m3u8合并ts文件
  • sqlmap 常用
  • Android在子线程更新UI
  • Python+FFmpeg提取哔哩哔哩安卓缓存
  • 2026玉溪婚纱摄影推荐,全玉溪主流商家星级综合排名(多维度权威测评) - 提酒换清欢
  • std::future超时功能落地C++26:3个你不能错过的实战技巧
  • JavaSE——封装
  • SegmentFault提问互动:以答疑形式传播HunyuanOCR价值
  • windows虚拟机宝塔设置网站本地域名
  • HunyuanOCR支持端到端文档问答?实测PDF内容交互能力
  • 揭秘C++负载均衡算法:如何在分布式环境中实现毫秒级响应
  • 轻量化OCR新选择:腾讯HunyuanOCR在Jupyter中的界面推理实践
  • UEVR经典作品 独家模组 (TOP级别)
  • 使用PyCharm开发HunyuanOCR插件时的环境配置建议
  • 【C++26重大更新】:std::future超时支持如何改变异步编程格局?
  • 如何利用单北斗GNSS实现水库变形监测效果提升?
  • Obsidian插件开发设想:本地OCR识别图片内文字
  • Kubernetes集群中部署HunyuanOCR实现高可用OCR服务
  • QSocketNotifier深度技术报告:架构解析、跨平台实现与高级应用范式
  • 腾讯混元OCR模型在复杂票据识别中的应用案例分享
  • 还在为论文查重爆表发愁?这7款AI工具实测,5分钟生成万字低AIGC率论文!
  • Rust能否完全取代C++?三大真实项目对比数据曝光(内存安全领域已悄然变天)