当前位置：首页 > news >正文

具身智能表征的ImageNet来了！机器人终于看懂了人类世界

news 2026/6/5 17:16:54

机器人在现实中总“翻车”？只因跨不过那道模态鸿沟。今天，具身智能真正的 ImageNet 时刻终于到来。

从 2025 年春晚的《秧 BOT》，到 2026 年春晚里走进武术、小品等不同节目，机器人已经不只是舞台上的技术点缀，它们的动作越来越复杂，角色也越来越丰富。

但对于具身智能领域而言，真正的问题并不在于机器人能不能完成一场预先设定的表演，而在于这些能力能否离开特定的编排和场景，泛化到更广泛的真实任务中。

互联网上的海量视频，构成了物理世界最庞大的交互数据库。人类看段短视频就能学会的物理技能，具身模型却迟迟无法从中有效挖掘。

画面里只有像素的流动，天然缺少机器能读懂的控制指令。视觉信号与动作标签之间，隔着一道难以跨越的模态鸿沟。

为打破这一僵局，美团 LongCat 团队推出了 LARYBench。

作为业内首个专门评估此类泛化表征的系统性基准，它提供了一把量化标尺，旨在帮助具身模型真正从海量视觉数据中学会通用的动作语言。

为推动这一路径的探索与验证，LARYBench 及其数据集、代码现已全面开源。

论文地址：

https://huggingface.co/papers/2604.11689

GitHub地址：

https://github.com/meituan-longcat/LARYBench

项目主页：

https://meituan-longcat.github.io/LARYBench/

HuggingFace地址：

https://huggingface.co/datasets/meituan-longcat/LARYBench

ModelScope地址：

https://modelscope.cn/datasets/meituan-longcat/LARYBench

具身泛化的三大现实瓶颈

长期以来，具身智能模型之所以难以直接向人类视频学习，主要受制于三个现实瓶颈：

一方面是数据获取难，带有精确动作标注的机器人数据极度依赖高成本的遥操作采集，规模极为有限，而庞大的人类视频库又缺乏机器人可用的底层指令。

另一方面是表征难迁移，传统的动作数据往往与特定硬件本体高度绑定，导致在一个平台上习得的特征很难跨形态复用。

更致命的是缺乏统一度量，由于没有独立的标尺来衡量中间表征质量，目前的模型大多局限于特定任务微调，难以走向大规模无监督预训练。

隐式动作表征通过学习视频帧间的时空演变来抽象动作语义，被视为打破上述瓶颈的关键。

LARYBench 的出现，正是为了将这种中间表征的质量与下游控制策略彻底解耦，为行业提供科学的评价体系。

构建动作表征的度量标准

针对前述的评估空白，LARYBench 建立了一套能够量化隐式动作质量的标准化框架。

它并非单纯的单一数据集，而是一个从物理执行（本体动作）与高层理解（语义动作）两个核心维度切入的综合评价体系。

〓 LARYBench 概览：数据规模、动作分类体系及多形态机器人平台覆盖

这一体系建立在庞大的数据底座之上。LARYBench 整合了超过 120 万个标注视频片段（总时长超 1000 小时），以及 62 万对图像和 59.5 万条运动轨迹。

〓数据构成：组成比例及视频时长分布

其样本空间展现了极高的多样性。动作类别精细划分为本体动作、原子语义动作和复合语义动作三个层级，共计 151 种，既包含 pick、place 等基础交互，也覆盖了 shovel（积雪）、float（气球）等长尾场景。

〓语义分布：动作动词与操作对象的词云分析

硬件形态则横跨了从 Franka 单臂到 Agilex Cobot、Realman 以及半人形 G1 在内的 11 种机器人平台，并深度融合了人类视角的交互数据。

为了实现精准度量，LARYBench 构建了一套全链路自动化的多粒度数据引擎。它将视频切片、描述匹配到特征归一化等复杂流程交由算法闭环，极大地提升了海量异构数据的处理效率。

〓 LARYBench 数据构建流程：视频切片、描述匹配与一致性检验

系统引入了运动引导采样器（MGSampler），通过计算帧间运动强度确保提取的时序序列包含足够的物理动态变化，并覆盖了从真实住宅厨房到工业场景等多样化环境。

〓左右滑动查看更多典型动作样例

该基准对数据质量把控严苛，在全链路自动化处理的基础之上，辅助以严格的人工抽检做质检校验。

〓 LARYBench 整体流程：涵盖数据采样、隐式表征提取及解耦评测任务

如上图所示，在核心评测流程上，系统会首先通过待测模型提取出隐式动作表征 z，随后利用浅层探测头进行解耦验证，其评估逻辑最终收敛为两个独立维度：

语义动作分类：衡量特征 z 对动作意图的识别精度，涵盖原子动作与复合行为。
本体动作回归：衡量特征 z 对末端执行器绝对位姿参数（7/12/16-DoF）物理细节的还原能力。

实验解析：从宏观性能到底层机制

为了全方位验证隐式动作表征的有效性，论文系统评估了具身智能领域现有的四类代表性范式：专为具身设计的隐式动作模型（Embodied LAMs）、语义级通用视觉编码器、像素级通用视觉编码器，以及在通用主干上构建的 General LAMs。

实验围绕宏观性能、底层物理机制以及超参数规律展开了深入剖析。

通用视觉模型在控制任务中占优

实验数据给出了明确答案，在未接受任何显式动作监督的情况下，通用视觉编码器（如 V-JEPA 2、DINOv3）在语义捕捉和底层控制还原上的表现，均明显优于专为机器人研发的 Embodied LAMs。

〓性能对比：模型在原子与复合语义分类任务上的准确率

对比 DINOv3 与 Wan2.2 VAE 的表现，DINOv3 的平均 MSE 低至 0.19，优于后者的 0.30。数据表明，基于隐式特征空间的视觉编码在物理控制对齐上，比像素级生成模型更具精度。

〓回归误差对比：各模型在单臂及双臂数据集上的表现

研究团队认为，这主要是因为专用的具身模型训练数据较少，或者是过早受到领域特定约束，限制了表征的普适性。

长尾分布的泛化能力进一步印证了这一结论。随着动作频率降低，强模型与弱模型之间的性能差距进一步拉大，证明了高质量视觉预训练能够助力模型在样本稀缺场景中保持精准捕捉。

〓模型在长尾分布动作上的性能表现

动态轨迹编码与注意力聚焦

隐式表征是否真正编码了动作规律，还是仅仅在做静态图像匹配？研究团队通过采样步长（Stride）消融实验给出了证据。

当预测步长从 5 增加到 30 时，纯像素级生成模型（FLUX.2-dev）误差严重恶化，MSE 飙升至 0.62；而隐式动作范式（LAMs）表现出极高的稳定性。

这证明了隐空间确实编码并保留了连续的物理运动轨迹。

〓时间稳定性验证：采样步长消融实验结果

交叉注意力热力图直观展示了模型底层的聚焦差异。在倾倒动作序列中，V-JEPA 2 和 DINOv3 能精准聚焦于手部与物体的物理交互区域。

相比之下，具身专项模型的注意力呈现弥散状态，像素级模型则易受光影等无关变化的干扰。

〓不同模型在倾倒动作序列上的注意力热力图对比

动作表征的超参数规律

为指引 General LAMs 的构建，实验进一步对关键参数进行了消融分析。

结果表明，调整码本大小、序列长度、隐空间维度和学习率等超参可以有效提升动作表征效果：

视觉主干是基石：将冻结的通用编码器特征作为输入，训练出的 LAM 性能显著优于基于像素重建的方案。

参数配置的平衡：在合理范围内，增大序列长度和隐空间维度有利于提升特征表达能力。

码本的容量界限：实验显示，在当前数据分布下，码本并非越大越好。当容量从 64 增加到 256 时，码本利用率降至 89.5%，导致性能出现小幅回落。

值得注意的是，超参数的配置与训练数据规模高度相关。目前观测到的性能波动仅基于现有数据量。随着数据规模的进一步扩展，隐式表征的性能边界仍有巨大的提升空间。

〓超参消融：不同配置下的性能演进路径

从“看懂”到“行动”的范式转移

LARYBench 的实验数据证明，有效的动作先验，完全可以从海量互联网无标注视频中自然涌现。

在未来的 VLA 模型设计中，与其在极其稀缺的机器人标注数据上从头构建动作空间，不如采用一种更具扩展性的策略。

先依托互联网视频庞大的数据规模，学习稳健的动作先验，再将其对齐到底层控制策略中，实现从通用视觉特征空间到物理执行能力的跨越。

这种路径有望帮助具身智能彻底突破现有的数据获取瓶颈，真正将数据的规模优势转化为模型的行动力——通过打通从认知物理世界到执行复杂任务的闭环，指引具身智能走向属于它的 GPT 时刻。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.jsqmd.com/news/659233/

Python实战：立体像对空间前方交会算法解析与实现

ccmusic-database行业落地：在线教育平台音乐鉴赏课自动流派标注系统

机械臂抓取实战：如何用YOLOv5和GraspNet实现动态目标精准抓取（附完整代码）

别再只盯着成本中心了！用SAP EC-PCA做利润中心分析，从配置到报表的全流程解读

2026文化石市场亮点：技术精湛的厂家推荐，文化石/天然石/砌墙石/贴墙石/石材/冰裂纹/碎拼石，文化石厂商哪家好 - 品牌推荐师

单片机实战解析：从时序到代码，手把手实现DS18B20温度采集

Gymnasium强化学习实战：手把手教你配置Atari游戏环境（含ROM许可问题处理）

微信支付JSAPI报错排查指南：从‘total_fee’到云函数unifiedOrder的完整配置流程

保姆级教程：用Termux+Alpine Linux在安卓上搭建个人Trilium笔记服务器（含端口映射详解）

IEC104 规约深度解析(一) 帧格式与数据单元

SITS2026私有化部署最后窗口期：仅剩62天，官方将于5月31日关闭v1.x License续订通道

5分钟搞懂LTE/NR的PDCCH：手机是怎么知道基站让它干啥的？

用Python模拟一个真实的IEC104子站：从零封装Server类到主站联调

Realistic Vision V5.1实战：小白也能轻松生成单反级人像作品

2026品质直供不中转,专业组合式空调机组源头厂家推荐:江苏亿恒空调 - 栗子测评

别再只会用@SuppressWarnings了！Java中Object转List的5种安全姿势（附完整工具类）

从贝叶斯到LDA：一个‘生成故事’帮你理解话题模型到底在模拟什么

泛微OA E9版WebService接口实战：构建自动化邮件推送系统

从成本到性能：剖析推挽与图腾柱驱动电路的设计陷阱与实战选型

WindowsCleaner终极指南：快速解决C盘爆红问题的完整教程

Qwen Pixel Art开发者指南：FastAPI接口调用+批量生成像素图代码实例

Cadence Allegro 17.4 + Samacsys Library Loader 3D模型导入实战：从原理图到带3D视图的PCB

代码数据质量断崖式下滑？这4类隐性污染源正 silently 毁掉你的微调效果，附检测脚本开源

保姆级教程：用VESTA搞定VASP吸附计算后的差分电荷密度分析（以CO/Pt(111)为例）

别再死记硬背了！用Qt Graphics View框架做个简易流程图编辑器，彻底搞懂View/Scene/Item

037、模型评估与可视化（一）：COCO指标深度解读与Beyond

Agent 能实现企业 IT 运维流程自动化吗？深度解析2026年AI Agent在运维领域的规模化落地

SITS2026实测：同一产品，AI生成vs人工创意——曝光成本降43%，转化率反超22.6%，怎么做到的？

告别点阵取模！用ESP32的esp_lcd_panel_draw_bitmap函数实现中英文显示（附完整代码）

相关文章：