当前位置：首页 > news >正文

【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

news 2026/4/30 15:15:34

快速了解部分

腾讯团队研发了一套专为机器人设计的视觉语言模型（VLM），通过独特的架构和训练方法，让机器人能更精准地看懂世界、进行空间推理并规划行动。

通用的大模型（LLM/VLM）虽然知识渊博，但在物理世界面前“眼高手低”：缺乏对物体细节、空间位置的精细感知能力，也缺少在物理环境中进行预测、交互和规划的“具身智能”思维。

搞了两个模型：一个2B参数的小模型专供边缘设备（机器人本体）使用，一个32B参数的大模型负责“传帮带”。核心技术是用MoT架构让模型对图像和文字分别处理，加上“视觉潜token”来连接视觉与语言，并用迭代强化学习提升推理能力。

作者认为，要让数字智能走进物理世界，不能直接套用通用模型，必须专门设计一种既能像人一样通过视觉感知环境，又能像AI一样进行深度逻辑思考的“机器人大脑”。

架构创新：采用了Mixture-of-Transformers (MoT)，把处理图像和文字的参数分开，互不干扰，既提升了视觉感知能力，又不牺牲语言能力。
连接机制：引入了Visual Latent Tokens，作为视觉和语言之间的桥梁，专门用来捕捉图像的整体语义信息。
训练策略：设计了一套**“大带小”**（Large-to-Small Distillation）的策略，让强大的大模型把自己的“思考过程”教给小模型，让小模型也能拥有接近大模型的智商。

想象一下，这是在训练一个“机器人驾驶员”。

MoT架构就像是给驾驶员配了两个专门的助手：一个专门负责“看路”（处理图像），一个专门负责“听导航”（处理文字），而不是让一个助手同时干两件事导致手忙脚乱。
视觉潜token就像是驾驶员脑海里对当前路况生成的一个“核心印象”，这个印象直接决定了他怎么理解导航语音。
大带小就像是让一个经验丰富的老司机（32B大模型）坐在新手（2B小模型）旁边，不仅告诉新手该怎么做，还把自己的思考逻辑直接传授给他。

数据大杂烩：喂给模型海量数据，包括普通图文、机器人操作视频、3D空间坐标、物体深度信息等（总计超600B tokens）。
分阶段训练：
- 预训练：用大数据打基础，学会看懂图像和理解语言。
- 中期训练：引入专门的具身和空间数据，让模型学会“深度思考”（Chain-of-Thought）。
- 强化学习：通过打分机制（Reward），让模型自己试错，不断优化自己的回答，直到满分。
- 蒸馏：最后，让32B的大模型去指导2B的小模型做题，把大模型的“解题思路”压缩进小模型里。

模型规模：MoT-2B（20亿参数，边缘端） vs MoE-A32B（320亿参数，云端）。
数据集：自建了包含1亿+样本的高质量数据集，涵盖视觉感知、空间、具身任务。
评估基准：在22个公开基准测试中横扫千军，包括视觉感知（CV-Bench）、空间理解（3DSRBench）、机器人任务（RoboBench）等。
结论：
- 2B小模型：在同类小模型中拿了16个第一，甚至能打败参数量比它大的竞品，且在通用任务上不输Qwen3-VL。
- 32B大模型：性能对标甚至超越了Gemini 3.0 Pro等顶尖模型。
- 真机测试：在真实的机械臂（插头打包、叠餐具、挂杯子）任务中，成功率显著高于基线模型（π0/π0.5）。

Liang et al., 2024 (Mixture-of-Transformers)：本文核心架构MoT的直接理论基础，提供了模态自适应计算的思路。
Zelikman et al., 2024 (Latent Thinking)：启发了本文使用Visual Latent Tokens来连接视觉与语言，增强模型的感知表示。
Shao et al., 2024 (DeepSeekMath / Iterative RL)：本文在后训练阶段采用的迭代强化学习范式的参考来源，用于提升模型的深度思考能力。