当前位置: 首页 > news >正文

一份来自40000+次真机评测的具身智能年度报告!RoboChallenge打破Demo滤镜:最强模型也只有51%成功率

在过去一年里,具身智能几乎成了 AI 领域最“好看”的方向之一。

机器人叠碗、做咖啡、整理桌面的视频在社交平台上高频刷屏,配上“通用智能已来”的标题,极具冲击力——但在热闹之外,一个始终被回避的问题是:这些模型,换一台真机、换一个摆放位置、连续跑上十次,还能成功吗?

RoboChallenge 的出现,正是为了回答这个并不讨喜、却极其关键的问题。

作为由原力灵机 Dexmal 与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台,RoboChallenge 自 2025 年 10 月上线以来,已部署 UR5、Franka、ARX5、ALOHA 等主流机型在内的 20 台真机测试集群,开源了涵盖 30 个标准化任务的 Table30 数据集(736GB),并已累计执行超过 4 万次真机测试(Rollouts)。

基于此,上周五 RoboChallenge 正式发布了其首份年度报告(2025 Q4 - 2026 Q1)——这份基于超 4 万次真实机器人测试、涵盖 30 个标准化任务的数据复盘,首次以规模化、可复现的实证数据,为炙手可热的具身智能领域提供了一份难得的“硬核体检报告”。

  • 报告地址:https://robochallenge.ai/news

一、真机、真数、真透明:为何 RoboChallenge 能成为“标尺”?

与依赖仿真或受限环境的测试不同,RoboChallenge 的核心在于“真”。
在 RoboChallenge 之前,具身智能评测长期面临三大难题:难复现、无统一标准、成本高昂——RoboChallenge 对此给出的解法,是一套“反直觉但务实”的组合拳:

  • 首先,是真机而非仿真。

RoboChallenge 已部署 UR5、Franka、ARX5、ALOHA 四类主流机型,共 20 台真实机器人,覆盖单臂、双臂与不同构型。所有榜单结果,均来自真实物理环境下的执行,而非理想化的模拟器,因此模型必须直面传感器噪声、执行误差、物体微小偏移等现实问题。

  • 其次,是对偶然性的系统性消解。

在 RoboChallenge 中,每一个任务都必须进行 10 次独立真机测试,最终以平均成功率计分。同时,平台引入“成功率(Success Rate)+ 过程分(Progress Score)”的双指标体系:不仅看是否完成任务,也量化模型在失败前推进到了哪一步。这一设计有效避免了“一次成功即上榜”的 Demo 式偏差。

  • 最后,是对人为因素的约束。

真实评测中,操作员对物体的摆放位置本身就是隐性变量。RoboChallenge 通过“视觉输入匹配”机制,在测试前叠加半透明参考图像,要求初始场景与训练分布高度一致,从源头上消除了所谓的“甜点区域”问题。这让不同模型真正站在同一起跑线上竞争。

这一整套机制,几乎从制度层面“禁止”了只为好看而存在的模型表现。

二、一个“尚待提高”的数字:榜首模型成功率在 50% 左右

从 RoboChallenge 总榜来看,最直观、也最具冲击力的结论是:目前表现最佳的模型在 Table30 任务集上的平均成功率仅为 51%。

RoboChallenge 首页总榜(仅显示 Top8),截图日期:2026.1.23

这并非个别模型的问题,而是整个阶段性技术水平的真实写照。Table30 覆盖了 30 个标准化桌面任务,横跨刚体操作、精细抓取、软体形变与长序列任务,对模型提出的是端到端的综合能力要求。

与此同时,榜单还呈现出一个值得注意的结构性现象:多数模型的过程分显著高于最终成功率。以 Top 3 模型为例,其平均成功率集中在 35%–51% 区间,但过程分均超过了 55——这说明在大量失败任务中,模型并非“完全失效”,而是已经完成了相当一部分关键步骤,只是在某个环节出现了不可恢复的偏差。

这恰恰体现了真实物理世界的残酷性:与数字空间不同,现实任务往往不允许回滚重来,一次微小失误就可能导致整个任务失败。

三、报告核心洞察:能力图谱与“叹息之墙”

通过对 Top 模型在单任务维度上的表现分析,RoboChallenge 将 Table30 任务划分为三个清晰的能力梯队。

(1)第一梯队,“Hello World”级任务。

以堆碗(stack_bowls)为代表,这类任务在头部模型中已接近满分,Top 3 模型成功率均达到 100%。它们更多承担的是“入场测试”的角色,用于验证模型是否具备基本的视觉感知与抓取能力,而不再具备足够的区分度。

(2)第二梯队,工程能力的分水岭。

如放鞋上架、将杯子放到杯垫、寻找指定目标等任务,Top 1 模型成功率可达 90%,但对感知稳定性、抓取精度与控制策略提出了更高要求。这一层开始明显拉开模型之间的差距,工程细节与系统稳定性成为关键变量。

(3)第三梯队,当前阶段最典型的“能力悬崖”。

在 Table30 中,这一梯队任务的共同特征是:成功与失败之间几乎不存在缓冲区。在按三个按钮、打开水龙头等任务中,往往只有某一特定模型能够达到 100% 成功率,而后续模型成绩迅速下滑。这类任务高度依赖模型在特定能力维度上的深度优化,也暴露出当前 VLA 模型在能力分布上的明显不均衡。

除了以上三大梯队,在 RoboChallenge 的任务热力图中,还有数个任务出现了“全模型成功率为 0%”的情况——RoboChallenge 官方将这类任务形象称为“叹息之墙”。

以“制作素三明治”为例,该任务要求严格的操作顺序与双臂协同。但在实测中,模型往往在最初的抓取阶段就出现数量或位置错误,一步失误直接导致全局失败,几乎没有容错空间;在“给盆栽浇水”任务中,报告显示模型能完成前序步骤,却在最后“忘记”将水壶归位,这直指长时序任务中的状态保持与逻辑连贯难题;在软体操作任务(如“叠抹布”)中,即便是表现最好的模型,成功率也仅有 30%,说明柔性物体在受力后的不可预测形变,至今仍是具身智能领域公认的最大难题之一。

RoboChallenge 年度报告中还明确指出,单任务模型与多任务模型之间也存在巨大性能鸿沟。以同一基座模型为例,报告给出的数据显示:Pi0.5 在单任务设定下的平均成功率为 42.67%,而在多任务设定下仅为 17.67%;Pi0 的对应差距也同样接近 20 个百分点——这清晰表明,开发真正通用的“机器人大脑”,而非针对单项任务的“熟练工”,仍是核心挑战。

跟网上的 Demo 相比,RoboChallenge公开的这些失败案例和数据并不“好看”,但也因此构成了最有价值的资产:一个公开、可复盘的具身智能错题集。

四、指数级增长的数据背后:真机评测不再是尝试,而是刚需

如果说榜单成绩揭示的是模型能力的“高度”,那么平台使用数据反映的,则是整个行业的“重心迁移”:RoboChallenge 在上线后的短短 4 个月内,评测热度呈现出明显的指数级增长趋势。

截至报告统计周期结束,RoboChallenge 已累计核发 209 个提测资格,其中 82 位开发者完成了本地推理环境搭建并成功提交真机评测,从申请到实际提测的转化率达到 39.2%。其中,除了上文提到的 Pi0 和 Pi0.5,不仅 RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜,千寻智能与自变量团队也完成了完整的 Table30 任务集评测,极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型更是正在 RoboChallenge 平台进行真机实测。

更直观的信号来自真实执行规模。RoboChallenge 平台累计完成的真机测试已达 41969 次,单日最高提交评测 181 次 Runs,单日真机执行峰值达到 834 次 Rollouts——这不仅验证了 RoboChallenge 平台在高并发场景下的系统稳定性,也反映出一个事实:越来越多模型正在把“是否能通过 RoboChallenge 真机测试”作为自身能力验证的必要条件,而非加分项。

从地域分布来看,这种需求也并非局限于单一市场。当前 RoboChallenge 的活跃用户中,中国开发者占比 58.3%,美国 22.0%,新加坡、日本及阿联酋等地区也持续有团队参与评测。

如果说 ImageNet 曾经统一了视觉任务的评估方式,那么 RoboChallenge 正在尝试为物理世界建立一套可比较、可复盘、可持续演进的验证坐标系。

坦白说,RoboChallenge 给出的答案,可能并不令人兴奋:

  • 没有 90% 的通用成功率;
  • 没有“一次训练,通吃任务”;
  • 甚至没有稳定完成“做一份三明治”。

但恰恰是这些不完美的数据,构成了具身智能真正向前的方向。

当行业逐渐告别 Demo 滤镜,开始正视真实物理世界的复杂性,RoboChallenge 所提供的,不只是榜单,而是一面镜子——它让所有人第一次站在同一把尺子前,看清自己离“通用具身智能”到底还有多远。

RoboChallenge年度报告下载👉https://robochallenge.ai/news

http://www.jsqmd.com/news/338524/

相关文章:

  • Maven踩坑指南:依赖冲突专治不服,范围聚合玩明白!
  • 重庆集训比赛记录
  • 2026年老旧电梯维保优质厂家推荐榜:济南电梯保养、济南电梯改造、济南电梯更新、济南电梯维修、电梯保养、电梯更新选择指南 - 优质品牌商家
  • Servlet入门保姆级教程:从0到1搞定Tomcat与Web开发
  • 调查:超1/4游戏开发者近两年遭解雇,近一半仍未找到新工作;阿里自研AI芯片“真武”亮相;华为手机全系降价,最高达4000元 | 极客头条
  • 编程门槛被压到799美元?“那个拿着Mac Mini+Claude的「门外汉」,抢走了程序员3个月的活!”
  • 九江濂溪区桶装水配送 - 中媒介
  • DeepMind的PYSC2环境——报错:pygame.error: Unable to make GL context current
  • 进口金库门哪里买 - 中媒介
  • 饲料烘干机、中药材干燥机、中药材烘干机、农业干燥机、化工原料烘干机、化工干燥机、四川干燥机厂家、四川烘干机厂家选择指南 - 优质品牌商家
  • 我的常用软件
  • 2026年锂电池厂家权威推荐榜:户外太阳能路灯、新农村太阳能路灯、老年车锂电池、货三轮锂电池、道路太阳能路灯、高杆太阳能路灯选择指南 - 优质品牌商家
  • 金库安全屋适合别墅安装吗? - 中媒介
  • 网上课程学习系统毕业论文+PPT(附源代码+演示视频)
  • 三合安防金库门技术优势(ECB-S V级认证) - 中媒介
  • 基于Android的大学生食堂点餐平台的设计与实现(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 基于SpringBoot和Vue的物联网仓储管理系统(源码+lw+部署文档+讲解等)
  • 隐形金库门与传统金库门安全性对比 - 中媒介
  • [深度强化学习算法进阶项目】[源代码+论文】(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 2026市政亮化太阳能路灯锂电池优质厂家推荐 - 优质品牌商家
  • 基于SpringBoot和Vue的物流管理系统(源码+lw+部署文档+讲解等)
  • python2025旅游推荐系统+爬虫+可视化(协同过滤算法)(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • MCM/ICM写作模板
  • 华福加盟商政策 - 中媒介
  • 基于模型参考自适应系统的改进滑模观测器(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 莱芜老干烘冲泡水温 - 中媒介
  • 基于SpringBoot高校防诈骗宣传平台系统(源码+lw+部署文档+讲解等)
  • Flink SQL Deduplication用 ROW_NUMBER 做流式去重 - 实践
  • 于图像处理的停车位识别系统设计的Matlab源程序(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 基于深度学习YOLOv10的船舶类型识别检测系统(YOLOv10+YOLO数据集+UI界面+模型)