当前位置: 首页 > news >正文

枢途科技开源10万+轨迹具身数据集HORA

枢途科技正式发布多模态具身智能数据集HORA,这是业界首个从真实场景人类视频中提取的具身多模态训练数据资源。

数据集包含15万条高质量轨迹,覆盖多种实际应用场景,支持更多具身从业者进行模型验证及机器人技能训练。

此次发布的数据集基于枢途科技自主研发的SynaData数采技术构建,该技术产出数据此前已成功应用于RDT、PI π0.5等主流开源模型,并与业内头部具身企业完成了商业化验证。

破解数据瓶颈:从人工采集到视频提取

当前,具身智能发展的核心制约在于高质量训练数据的稀缺与高成本。传统动作捕捉与遥操作技术虽然能实现一比一的动作复刻,但存在三方面关键问题:

  1. 成本高:人工成本及采集设备成本高企;数采设备成本可达数万至十几万元,大型数采中心的建设投入与运营投入巨大;

  2. 数据不通用:遥操作方式采集的数据通用性差,仅能支持部分构型机器人训练,容易形成“数据孤岛”;

  3. 模态不丰富:遥操作方式仅能采集到机械臂末端轨迹及视频数据,对于物体轨迹、Mesh等模态无采集能力。

枢途SynaData/RoboWheel开创了从人类真实工作视频及互联网视频中提取低成本、多模态训练数据的新路径,有效解决了行业的数采痛点。

技术突破:实现从人类视频到机器人指令的精准转化

HORA数据集的核心创新在于将人类操作视频转化为机器人可理解、可执行的训练数据。

该数据集采用HOI(人-物交互)格式,通过手和物体联合重建技术,生成物理合理的参数化结果,作为通用的上游模态,可灵活适配各种下游机器人本体。

在技术实现上,数据集展现出三大核心优势:

  1. 毫米级轨迹提取,将轨迹重建误差从传统方法的±5厘米显著降低至±0.5厘米;

  2. 跨本体适配,可泛化到不同机器人平台,实现“一次采集,多方使用”;

  3. 多模态支持,包含动作轨迹、物体网格、关节角度等丰富信息。

HORA数据集整合了超过15万条轨迹,融合了三类高质量数据源:真实场景RGB(D)录制数据、基于多视角动捕系统采集的带触觉信号数据以及公开HOI数据集后处理数据,形成了多源规模广泛与质量并重的数据体系。

该数据集既完整保留了手部参数、物体位姿、接触关系等HOI语义信息,也同步提供机器人视角观测、末端轨迹等机器人执行层所需的关键模态。其中,动捕子集所包含的高精度触觉信号,进一步为机器人学习精细操作提供了重要支持。

相较于现有数据集,HORA在规模与结构上均实现显著突破。传统HOI数据集如GRAB、HO3D等缺少可直接用于机器人训练的执行层数据;而DROID、LIBERO等机器人数据集则缺乏完整的交互语义信息;HORA有效弥合了这一断层,首次在统一框架内实现了从人类演示到机器人技能学习的端到端数据衔接,为具身智能的算法研发与模型训练提供了更加完整、可直接使用的数据基础。

开放生态:产业落地推动行业标准建设

枢途科技选择“数据基础设施第三方化”的开放路线,HORA数据集采用开源模式发布,将为高校科研团队和具身从业公司提供免费高质量训练数据,大幅降低模型训练成本。

目前,该数据集已适配所有主流VLA/IL模型。数据集采用通用标准格式,用户无需复杂格式转换即可直接用于模型训练。除数据集外,枢途科技还将发布基于该数据集训练开源模型的完整流程指南,帮助用户快速上手。

市场反馈

当前,枢途已与多家头部具身模型公司展开合作,进行数据送样与预训练验证。

市场反馈良好,HORA数据集在多个维度展现出卓越性能:在精度方面,当前数据集的轨迹重建精度达5毫米,满足多数工业场景需求;在泛化性方面,通过背景替换、桌面纹理变化等数据增强策略,提升了模型在复杂环境中的适应能力。

未来规划:构建亿条基建级数据生态

枢途科技将在今年内持续迭代增量数据集规模,目标成为全球最大的基于视频提取操作轨迹的具身数据集。

未来,公司将从三大方向拓展技术边界:

  1. 精度升级方面,引入动态遮挡建模与多视角重建机制,适配更广泛的分辨率范围和视频来源满足精度需求;

  2. 泛化扩展方面,支持的机器人本体类型将扩展至10种以上,并在多种本体上进行真机验证;

  3. 生态共建方面,与NVIDIA Isaac等仿真平台合作,建设完整的具身数据基础设施。

随着HORA数据集的开源,具身智能领域有望迎来新一轮创新浪潮。

枢途将持续为行业贡献数据燃料,赋能更多研发团队,枢途科技正推动行业向更加开放、协作的方向发展,为机器人在各行各业的规模化应用奠定坚实基础。

http://www.jsqmd.com/news/302333/

相关文章:

  • Qwen-Image-Layered重新定义AI绘画:图层操作全解析
  • 零基础入门:魔兽世界宏命令制作5分钟教程
  • UE5 C++(52)常用的函数
  • 2026年最新 Realtek 高清晰音频管理器下载安装与使用全攻略
  • JITOU-UNLOCK在智能家居中的实际应用案例
  • 5分钟用橙色RGB打造品牌视觉原型
  • 【技术突破】解决手柄冲突的5大核心策略:从驱动隔离到场景适配
  • GitHub镜像对比测试:5种方案的速度与稳定性测评
  • 软件快捷键失效解决方案:从诊断到预防的完整指南
  • 创意岛屿设计:用可视化工具打造个性化规划方案
  • XFTP7入门指南:从安装到基本使用
  • ZCODE vs 传统开发:效率提升10倍的秘密
  • 亲测科哥版Emotion2Vec+,9种情绪秒识别真实体验分享
  • Snap Hutao:3步解决原神资源管理难题的智能辅助方案
  • 量化回测框架全攻略:从策略研发到实盘部署的技术实践
  • 萌化你的桌面!BongoCat桌面宠物使用全攻略
  • AI助力CSS FLEX布局:自动生成响应式代码
  • 零基础精通游戏菜单开发:YimMenuV2实战指南与7大核心模块解析
  • SGLang本地服务启动命令详解,一次成功不报错
  • 快速验证IDM注册码的有效性
  • AI一键搞定KEIL安装:快马平台自动生成配置脚本
  • Zustand极简入门:15分钟构建第一个状态管理应用
  • Java新手必看:理解并解决‘无法设为私有字段‘错误
  • 告别繁琐配置!用SenseVoiceSmall镜像快速搭建语音分析系统
  • 如何用AI加速Robot Framework测试脚本开发
  • Python with语句入门:零基础也能懂的教程
  • 3分钟解锁加密ZIP文件:bkcrack密码恢复工具使用指南
  • 告别空间不足:夸克网盘高效管理技巧
  • LLaVA对比传统CV+NLP:效率提升10倍的秘密
  • AI如何帮你自动生成和解析JSON文件?