当前位置: 首页 > news >正文

生数科技发布世界动作模型Motubrain,为机器人智能带来“无限可能“

生数科技正式发布Motubrain——一款世界动作模型,以单一统一模型取代多个专用任务系统,充当物理世界中的机器人大脑。

生数科技将Motubrain定位为"一个大脑,无限可能"的机器人智能解决方案。

Motubrain在具身世界模型领域两项最严格的评测基准WorldArena和RoboTwin 2.0上均名列前茅,标志着行业从依赖专用或特定任务系统构建机器人的传统模式中实现了决定性转变。

生数科技以其旗舰视频模型Vidu闻名业界,此次在机器人生成式AI领域的突破堪称行业首创。生成式视频为大规模模拟真实环境中的机器人奠定了基础,而Motubrain进一步将这些模拟转化为实际行动,使机器人能够从多样化的大规模预训练数据中学习,同时降低对传统物理数据采集的依赖。

生数科技创始人朱军表示:"真正的世界模型必须能够构建对现实世界的统一表征,并预测其演变方式。视频是这种智能的关键基础,因为它能够自然地大规模捕捉时间、空间、运动、因果关系和物理动态。我们认为,通用世界模型不应由拼凑在一起的模块构成,而应是一个统一的架构,将感知、推理、预测、生成与行动整合于单一系统之中。这才是最终连接数字世界与物理世界的关键所在。"

顶尖基准评测表现

Motubrain在具身AI领域主流评测基准上均表现出色。在WorldArena上,Motubrain以63.77的具身世界模型评分跻身机器人感知、预判与规划领域最佳模型行列。在RoboTwin 2.0上,其在50项预设任务中平均得分高达96.0,同时也是唯一一个在随机环境中超过95.0分的模型。

四大核心原则重新定义具身AI

Motubrain的核心突破在于将"所见世界"与"所需行动"统一于单一模型之中,并建立在四大核心原则之上,共同重新定义了机器人训练中具身AI模型的边界:

一脑多能:统一模型可处理各类任务,且任务种类越多,模型越智能、越强大。无需逐项训练每种技能,与传统模型不同,Motubrain同时处理的复杂任务范围越广,多任务处理的成功率与可靠性反而越高。

一脑通用:Motubrain并非为某一特定机器人型号而生,而是被设计为可驱动多种类型机器人的通用大脑,打破了"一机一模型"的旧有模式。随着更多机器人类型、真实场景和数据加入生态系统,Motubrain持续进化,进而带动网络中每台机器人的整体性能提升。

一脑端到端:Motubrain直接学习完整任务序列,可处理涉及多达10个原子动作(即机器人中最小运动单元)的复杂多步骤任务,远超传统2至3个原子动作的水平。机器人不再只看到孤立的动作,而是从头到尾理解一项完整且有意义的任务。

一脑预判:在驱动行动的同时预测世界变化。环境变化、任务进展与执行过程在同一模型内协同处理,而非由独立子系统拼接完成。

统一多模态架构

为实现上述目标,Motubrain基于统一多模态模型构建,将视频与行动作为两种连续模态进行联合学习。单次训练即可同时赋予其五项能力:视觉-语言-动作控制(VLA)、世界建模、视频生成、逆动力学建模(IDM)以及视频-动作联合预测。

三流混合Transformer(MoT)架构将视频、动作与语言整合在一起,充分借助现有预训练模型的优势,使Motubrain能够同步理解环境、遵循语言指令、预测后续变化并生成动作。

与那些将感知、规划和控制模块串联在一起的系统不同,Motubrain对完整闭环进行整体处理。

更广泛的数据学习范式

Motubrain的学习数据范围远超传统机器人训练AI模型,涵盖未标注视频、无语言标注的任务录像以及来自不同机器人形态的数据。其专有的潜在动作框架可直接从大规模视频中提取物理运动,包括人类影像、仿真数据和多机器人任务轨迹,无需对数据进行标注或打标以指示具体动作。

这一更广泛的学习范式带来了显著的规模扩展效果。在任务规模评测中,随着训练任务数量增加,Motubrain的平均成功率持续提升,在50项任务时达到约92%,而Pi-0.5在同等范围内则下滑至约68%。在数据规模评测中,Motubrain同样保持明显优势,在27,500个训练回合时平均成功率约达92%,而Motus约为85%,Pi-0.5约为68%。

基于六层数据金字塔构建的三阶段训练流程,使Motubrain能够跨环境、跨机器人类型泛化技能,同时在精细化部署场景中保持足够的精准度。

从执行任务到真正完成任务

Motubrain能够理解周围环境、预判下一步可能发生的情况,并实时做出响应。在真实世界测试中,经Motubrain训练的机器人已能以超越大多数传统机器人系统的适应能力执行完整的多步骤任务。

例如,它们能够在不断变化的条件下将鲜花插入花瓶,并用双臂分别独立完成不同目标。

尤为值得关注的是,经Motubrain训练的机器人展现出卓越的执行过程理解与结果预判能力:当舀勺舀空时,机器人能够识别出未收集到任何物品,并自动重新尝试舀取动作,尽管从未针对重试数据进行过训练。

这标志着机器人从"仅仅执行任务"向"真正完成任务"的根本性转变。

已投入实际部署

Motubrain并非一个等待商业化的研究模型,它已正式投入运营。多家领先机器人公司已将Motubrain应用于正在进行的机器人训练项目,在工业、商业和家庭环境的真实硬件上部署其跨形态、多技能能力。

为进一步提升真实世界性能,生数科技已与星动纪元(Astribot)、SimpleAI和Anyverse Dynamics建立合作,共同推进通用具身AI大脑的研发,聚焦于基础模型演进、多模态数据融合、稳健数据基础设施以及软硬件全栈优化。

战略布局:Vidu与Motubrain双轮驱动

Motubrain是生数科技继Vidu之后的下一战略支柱。Vidu是该公司旗舰生成式视频平台,其最新版本Vidu Q3在SuperClue发布的全球首个参考视频排行榜上荣登榜首。

两款产品应用场景各有侧重,但底层基础一脉相承:正是使Vidu成为全球领先视频生成系统的世界模型技术,赋予了Motubrain在物理世界中预测与行动的能力。Vidu生成世界,Motubrain则在其中行动。

生数科技完成由阿里云领投的2.93亿美元B轮融资,投资方包括中国互联网投资基金、好未来、百度风投和光源资本,正以领导者姿态迈入物理AI时代,以成功的实地部署和在深度理解与有效执行任务方面的最高基准评测成绩,彰显其独特实力。

Q&A

Q1:Motubrain是什么?它与传统机器人AI系统有什么区别?

A:Motubrain是生数科技发布的世界动作模型,核心区别在于它用单一统一模型替代了传统机器人系统中多个专用模块的拼接方式。它将感知、推理、预测、生成与行动整合在一个架构中,无需为每项技能单独训练,任务种类越多反而越智能,同时支持多种机器人类型,打破了"一机一模型"的传统限制。

Q2:Motubrain在主流评测基准上表现如何?

A:Motubrain在具身AI领域两大权威基准上均名列前茅。在WorldArena上获得63.77的具身世界模型评分;在RoboTwin 2.0上,50项预设任务平均得分达96.0,是唯一在随机环境中超过95.0分的模型。在任务和数据规模评测中,Motubrain在50项任务时成功率约达92%,显著优于Pi-0.5的约68%。

Q3:Motubrain目前是否已经商用?有哪些合作伙伴?

A:Motubrain已正式投入运营,多家领先机器人公司正在工业、商业和家庭环境中部署使用。生数科技已与星动纪元、SimpleAI和Anyverse Dynamics达成合作,共同推进通用具身AI大脑研发。公司还完成了由阿里云领投的2.93亿美元B轮融资,投资方包括中国互联网投资基金、好未来、百度风投和光源资本。

http://www.jsqmd.com/news/831401/

相关文章:

  • Android Studio中文界面终极指南:3个步骤告别英文开发障碍
  • 2026年当下,长沙专业雨棚服务商如何选择?看这几点关键要素 - 2026年企业推荐榜
  • 复杂会场巡检机器人路径规划【附代码】
  • 自动驾驶-数据解析01:四元数03【自动驾驶中的四元数 [w, x, y, z] 到底从哪里来:采集、标定、定位还是标注?】
  • Agent 一接数据同步任务就开始造重复记录:从 Change Capture 到 Idempotent Sink 的工程实战
  • CircuitPython与NeoPixel打造赛博朋克齿轮护目镜:从硬件选型到代码解析
  • 3分钟掌握开源鼠标连点器:高效自动化终极指南
  • 3步解决C盘空间不足:FreeMove智能迁移实战指南
  • 如何将本地新建分支关联到远程同名分支?
  • AD数据集:nuPlan、OpenScene、NAVSIM 之间的关系【原始数据(nuPlan)→ 轻量重分发(OpenScene) → 评测基准/仿真框架(NAVSIM )】
  • Claude API密钥自动化同步工具:架构设计与实战部署指南
  • CircuitPython嵌入式开发实战:从传感器采集到数据存储的完整方案
  • 2026年Q2风电行业变革,四类基础油国产化如何破局? - 2026年企业推荐榜
  • 基于加速度计与物理引擎的嵌入式动画实现:HalloWing眼球模拟项目详解
  • 长期使用Taotoken聚合API对项目月度Token消耗的可观测性提升
  • 如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率
  • Taotoken API Key精细化管理与审计日志的实际价值
  • 2026年当下,果宝农业以全产业链实力领跑酱香风味果酒赛道 - 2026年企业推荐榜
  • 3个步骤彻底解决TranslucentTB启动失败问题,让Windows任务栏透明化工具重获新生
  • 基于Fruit Jam RP2350的世嘉创世纪模拟器:从硬件选型到游戏部署全指南
  • 别再手动敲命令了!用Shell的Here Document自动化你的SFTP/MySQL登录操作
  • 工业边缘计算新标杆:NVIDIA Grace超级芯片在CAPA55R嵌入式板卡的应用与实战
  • 自制硬件测试夹具:从探针床原理到Adafruit Feather自动化测试实践
  • Arm Neoverse CMN-650架构解析与性能优化
  • SAP F110自动付款:从零到精通的配置全景图
  • 别再只会`cmatrix`了!解锁Linux终端屏保的10种炫酷玩法(含快捷键大全)
  • 视频怎么转文字?2026免费视频转文字提取工具电脑手机端实测对比
  • Agent 一接链路追踪就开始误判慢调用根因:从 Span 聚合到关键路径定位的工程实战
  • 瑞华丽工业软件研发效能全景展示
  • Kazumi 同步 Bangumi