当前位置：首页 > news >正文

一份来自40000+次真机评测的具身智能年度报告！RoboChallenge打破Demo滤镜：最强模型也只有51%成功率

news 2026/7/3 7:58:13

在过去一年里，具身智能几乎成了 AI 领域最“好看”的方向之一。

机器人叠碗、做咖啡、整理桌面的视频在社交平台上高频刷屏，配上“通用智能已来”的标题，极具冲击力——但在热闹之外，一个始终被回避的问题是：这些模型，换一台真机、换一个摆放位置、连续跑上十次，还能成功吗？

RoboChallenge 的出现，正是为了回答这个并不讨喜、却极其关键的问题。

作为由原力灵机 Dexmal 与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台，RoboChallenge 自 2025 年 10 月上线以来，已部署 UR5、Franka、ARX5、ALOHA 等主流机型在内的 20 台真机测试集群，开源了涵盖 30 个标准化任务的 Table30 数据集（736GB），并已累计执行超过 4 万次真机测试（Rollouts）。

基于此，上周五 RoboChallenge 正式发布了其首份年度报告（2025 Q4 - 2026 Q1）——这份基于超 4 万次真实机器人测试、涵盖 30 个标准化任务的数据复盘，首次以规模化、可复现的实证数据，为炙手可热的具身智能领域提供了一份难得的“硬核体检报告”。

报告地址：https://robochallenge.ai/news

一、真机、真数、真透明：为何 RoboChallenge 能成为“标尺”？

与依赖仿真或受限环境的测试不同，RoboChallenge 的核心在于“真”。
在 RoboChallenge 之前，具身智能评测长期面临三大难题：难复现、无统一标准、成本高昂——RoboChallenge 对此给出的解法，是一套“反直觉但务实”的组合拳：

首先，是真机而非仿真。

RoboChallenge 已部署 UR5、Franka、ARX5、ALOHA 四类主流机型，共 20 台真实机器人，覆盖单臂、双臂与不同构型。所有榜单结果，均来自真实物理环境下的执行，而非理想化的模拟器，因此模型必须直面传感器噪声、执行误差、物体微小偏移等现实问题。

其次，是对偶然性的系统性消解。

在 RoboChallenge 中，每一个任务都必须进行 10 次独立真机测试，最终以平均成功率计分。同时，平台引入“成功率（Success Rate）+ 过程分（Progress Score）”的双指标体系：不仅看是否完成任务，也量化模型在失败前推进到了哪一步。这一设计有效避免了“一次成功即上榜”的 Demo 式偏差。

最后，是对人为因素的约束。

真实评测中，操作员对物体的摆放位置本身就是隐性变量。RoboChallenge 通过“视觉输入匹配”机制，在测试前叠加半透明参考图像，要求初始场景与训练分布高度一致，从源头上消除了所谓的“甜点区域”问题。这让不同模型真正站在同一起跑线上竞争。

这一整套机制，几乎从制度层面“禁止”了只为好看而存在的模型表现。

二、一个“尚待提高”的数字：榜首模型成功率在 50% 左右

从 RoboChallenge 总榜来看，最直观、也最具冲击力的结论是：目前表现最佳的模型在 Table30 任务集上的平均成功率仅为 51%。

RoboChallenge 首页总榜（仅显示 Top8），截图日期：2026.1.23

这并非个别模型的问题，而是整个阶段性技术水平的真实写照。Table30 覆盖了 30 个标准化桌面任务，横跨刚体操作、精细抓取、软体形变与长序列任务，对模型提出的是端到端的综合能力要求。

与此同时，榜单还呈现出一个值得注意的结构性现象：多数模型的过程分显著高于最终成功率。以 Top 3 模型为例，其平均成功率集中在 35%–51% 区间，但过程分均超过了 55——这说明在大量失败任务中，模型并非“完全失效”，而是已经完成了相当一部分关键步骤，只是在某个环节出现了不可恢复的偏差。

这恰恰体现了真实物理世界的残酷性：与数字空间不同，现实任务往往不允许回滚重来，一次微小失误就可能导致整个任务失败。

三、报告核心洞察：能力图谱与“叹息之墙”

通过对 Top 模型在单任务维度上的表现分析，RoboChallenge 将 Table30 任务划分为三个清晰的能力梯队。

（1）第一梯队，“Hello World”级任务。

以堆碗（stack_bowls）为代表，这类任务在头部模型中已接近满分，Top 3 模型成功率均达到 100%。它们更多承担的是“入场测试”的角色，用于验证模型是否具备基本的视觉感知与抓取能力，而不再具备足够的区分度。

（2）第二梯队，工程能力的分水岭。

如放鞋上架、将杯子放到杯垫、寻找指定目标等任务，Top 1 模型成功率可达 90%，但对感知稳定性、抓取精度与控制策略提出了更高要求。这一层开始明显拉开模型之间的差距，工程细节与系统稳定性成为关键变量。

（3）第三梯队，当前阶段最典型的“能力悬崖”。

在 Table30 中，这一梯队任务的共同特征是：成功与失败之间几乎不存在缓冲区。在按三个按钮、打开水龙头等任务中，往往只有某一特定模型能够达到 100% 成功率，而后续模型成绩迅速下滑。这类任务高度依赖模型在特定能力维度上的深度优化，也暴露出当前 VLA 模型在能力分布上的明显不均衡。

除了以上三大梯队，在 RoboChallenge 的任务热力图中，还有数个任务出现了“全模型成功率为 0%”的情况——RoboChallenge 官方将这类任务形象称为“叹息之墙”。

以“制作素三明治”为例，该任务要求严格的操作顺序与双臂协同。但在实测中，模型往往在最初的抓取阶段就出现数量或位置错误，一步失误直接导致全局失败，几乎没有容错空间；在“给盆栽浇水”任务中，报告显示模型能完成前序步骤，却在最后“忘记”将水壶归位，这直指长时序任务中的状态保持与逻辑连贯难题；在软体操作任务（如“叠抹布”）中，即便是表现最好的模型，成功率也仅有 30%，说明柔性物体在受力后的不可预测形变，至今仍是具身智能领域公认的最大难题之一。

RoboChallenge 年度报告中还明确指出，单任务模型与多任务模型之间也存在巨大性能鸿沟。以同一基座模型为例，报告给出的数据显示：Pi0.5 在单任务设定下的平均成功率为 42.67%，而在多任务设定下仅为 17.67%；Pi0 的对应差距也同样接近 20 个百分点——这清晰表明，开发真正通用的“机器人大脑”，而非针对单项任务的“熟练工”，仍是核心挑战。

跟网上的 Demo 相比，RoboChallenge公开的这些失败案例和数据并不“好看”，但也因此构成了最有价值的资产：一个公开、可复盘的具身智能错题集。

四、指数级增长的数据背后：真机评测不再是尝试，而是刚需

如果说榜单成绩揭示的是模型能力的“高度”，那么平台使用数据反映的，则是整个行业的“重心迁移”：RoboChallenge 在上线后的短短 4 个月内，评测热度呈现出明显的指数级增长趋势。

截至报告统计周期结束，RoboChallenge 已累计核发 209 个提测资格，其中 82 位开发者完成了本地推理环境搭建并成功提交真机评测，从申请到实际提测的转化率达到 39.2%。其中，除了上文提到的 Pi0 和 Pi0.5，不仅 RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜，千寻智能与自变量团队也完成了完整的 Table30 任务集评测，极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型更是正在 RoboChallenge 平台进行真机实测。

更直观的信号来自真实执行规模。RoboChallenge 平台累计完成的真机测试已达 41969 次，单日最高提交评测 181 次 Runs，单日真机执行峰值达到 834 次 Rollouts——这不仅验证了 RoboChallenge 平台在高并发场景下的系统稳定性，也反映出一个事实：越来越多模型正在把“是否能通过 RoboChallenge 真机测试”作为自身能力验证的必要条件，而非加分项。

从地域分布来看，这种需求也并非局限于单一市场。当前 RoboChallenge 的活跃用户中，中国开发者占比 58.3%，美国 22.0%，新加坡、日本及阿联酋等地区也持续有团队参与评测。

如果说 ImageNet 曾经统一了视觉任务的评估方式，那么 RoboChallenge 正在尝试为物理世界建立一套可比较、可复盘、可持续演进的验证坐标系。

坦白说，RoboChallenge 给出的答案，可能并不令人兴奋：