当前位置: 首页 > news >正文

面向机器人灵巧操作的手 - 物交互生成

机器人想要在真实场景里完成倒水、抓取、摆放、拧瓶盖等精细动作,核心在于稳定、连续、符合指令手 - 物交互(HOI)。但现有方法普遍存在三大瓶颈:1. 语义与几何难以兼顾长时程操作容易穿模、接触漂移,动作与语言指令、3D 场景不匹配。2. 推理速度无法实时主流扩散模型生成一段动作需要3–7 秒,难以用于在线规划。3. 高质量 HOI 数据极度稀缺手 - 物交互遮挡严重、动捕成本高、标注难度大,公开数据集规模有限。

为解决这些问题,本文提出FlowHOI:一个基于流匹配、语义对齐、可真机部署的两阶段手 - 物交互生成框架。FlowHOI 的目标非常明确:以第一视角观测、文本指令、3D 高斯场景为输入,生成时序连贯、物理合理、语义对齐的 HOI 序列,并直接迁移到灵巧机器人执行。

为解决数据稀缺,文章提出一套无需动捕、从第一视角视频自动生成高质量 HOI 数据的流程:① 过渡帧检测通过手腕速度与方向变化,定位 “抓取结束、开始操作” 的关键帧。② 物体 3D 重建使用 SAM3 分割 + DepthAnything3 深度估计 + SAM3D 重建物体网格。③ 手 - 物精准对齐基于 MANO 手部模型,优化位移与姿态,保证指尖接触、无穿透、抓握稳定。④ 输出对齐轨迹自动生成可用于训练的手 - 物交互序列,大幅降低数据成本。

FlowHOI 最关键的设计:模仿人类行为 —— 先抓稳,再操作

🔹 第一阶段:抓取(Grasping)
  • 专注:几何稳定、接触可靠

  • 任务:生成 “接近 → 触碰 → 抓稳” 的手部运动

  • 训练:使用大规模重建数据预训练抓取先验

  • 目标:无抖动、不穿模、抓握姿态自然

🔹 第二阶段:操作(Manipulation)
  • 专注:语义对齐 + 场景约束

  • 任务:在稳定抓取基础上,完成倾倒、转动、放置等长时程动作

  • 输入:语言指令 + 3D 场景信息 + 抓取结束状态

  • 设计:时序掩码 + 过渡硬约束,保证动作连贯不崩坏

为让动作符合真实空间布局,模型使用双场景编码

① 局部场景

  • 3D 点云采样

  • 几何特征(Concerto)+ 语义特征(SceneSplat)融合

  • Perceiver 压缩,降低计算量

② 全局场景

  • 体素化占用网格

  • ViT 编码,提供整体布局先验

  • 避免大碰撞,保证全局合理性

FlowHOI 放弃扩散模型,使用条件流匹配(CFM)

  • 推理仅需0.16 秒 / 序列

  • 比扩散模型快40 倍

  • 采用 x-prediction 目标,动作更平滑、抖动更少

  • 天然适合机器人实时控制与在线规划

GRAB、HOT3D两大权威数据集上:动作识别精度最高;物理仿真成功率 55.96%,较最优扩散基线提升1.7 倍;穿模体积最多降低21%; 推理速度0.16s / 序列,满足实时性;真机成功执行4 类任务。

http://www.jsqmd.com/news/505951/

相关文章:

  • DLSS Swapper:3分钟解决游戏DLSS文件管理的智能一站式方案
  • 从零开始:手把手教你用源码编译安装sysbench及其所有依赖(含perl配置)
  • 基于MATLAB Simulink平台的4机10节点系统暂态稳定性仿真研究:PSS与SVC对系...
  • AtCoder Weekday Contest 0029 Beta题解(AWC 0029 Beta A-E)
  • 抖音直播录制神器:从零开始的完整免费教程与配置指南
  • Qwen3-32B-Chat入门指南:WebUI中多会话管理、对话导出为Markdown功能详解
  • DeepSeek Function Calling实战:5分钟搞定天气查询机器人(附完整代码)
  • smolagents实战指南系列(二)Agents - 从零到一的模型调用与工具集成
  • 2026风电设备木箱包装厂家推荐:全球合规与极端环境防护的优质之选 - 速递信息
  • 连接池配置错1个参数,月增¥23,600?MCP本地数据库连接器成本失控的7个临界阈值,你踩中几个?
  • Windows老系统必看:MS17-010补丁全版本下载指南(附360免疫工具)
  • 达梦DCA认证必看:主从同步参数优化全解析(含MAL心跳间隔/归档空间实战调优)
  • http://www.jmnews.cn/zxsq/ - 品牌推荐
  • Mysql数据库基本操作
  • 华为云:智能世界的云底座与全球化服务
  • JeecgBoot低代码 AI工作流知识库节点:构建企业私域RAG问答的核心引擎
  • AnyFlip下载器:将在线翻页电子书转换为PDF的智能解决方案
  • NetCore树莓派桌面应用程序
  • 选择个人云盘时,哪个是最优解?2026年职场与科研人的首选报告
  • 【PyCharm使用教程】PyCharm的基本使用教程,适合完全零基础,小白快速上手!(Python+PyCharm安装包)
  • WANLSHOP多终端电商系统:FastAdmin+Uni-APP构建私域流量新生态
  • 中小企业必看:2026年10款新员工培训软件对比排行榜
  • 2026年除了百度云,这5款免费个人云盘不限速大容量
  • 图像匹配避坑指南:NCC算法在工业检测中的实战应用
  • 欧洲工作网络工程师工作签证选购指南,鼎信国际服务好吗? - mypinpai
  • GICI —编译运行glog报错
  • MGeo地址解析模型开源镜像部署案例:Gradio一键启动地址结构化服务
  • [Hello-CTF]RCE-labs靶场:从零到一的Docker化实战指南
  • PLC编程中的线圈类型全解析:从M到RLO,手把手教你正确使用
  • MiniCPM-o-4.5-nvidia-FlagOS快速开始:使用CSDN星图GPU平台实现一键免配置部署