当前位置: 首页 > news >正文

【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

快速了解部分

基础信息(英文):

  1. 题目: HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
  2. 时间: 2026.04
  3. 机构: Tencent Robotics X × HY Vision Team
  4. 3个英文关键词: Embodied Intelligence, Vision-Language Models, Mixture-of-Transformers

1句话通俗总结本文干了什么事情

腾讯团队研发了一套专为机器人设计的视觉语言模型(VLM),通过独特的架构和训练方法,让机器人能更精准地看懂世界、进行空间推理并规划行动。

研究痛点:现有研究不足 / 要解决的具体问题

通用的大模型(LLM/VLM)虽然知识渊博,但在物理世界面前“眼高手低”:缺乏对物体细节、空间位置的精细感知能力,也缺少在物理环境中进行预测、交互和规划的“具身智能”思维。

核心方法:关键技术、模型或研究设计(简要)

搞了两个模型:一个2B参数的小模型专供边缘设备(机器人本体)使用,一个32B参数的大模型负责“传帮带”。核心技术是用MoT架构让模型对图像和文字分别处理,加上“视觉潜token”来连接视觉与语言,并用迭代强化学习提升推理能力。

深入了解部分

作者想要表达什么

作者认为,要让数字智能走进物理世界,不能直接套用通用模型,必须专门设计一种既能像人一样通过视觉感知环境,又能像AI一样进行深度逻辑思考的“机器人大脑”。

相比前人创新在哪里

  1. 架构创新:采用了Mixture-of-Transformers (MoT),把处理图像和文字的参数分开,互不干扰,既提升了视觉感知能力,又不牺牲语言能力。
  2. 连接机制:引入了Visual Latent Tokens,作为视觉和语言之间的桥梁,专门用来捕捉图像的整体语义信息。
  3. 训练策略:设计了一套**“大带小”**(Large-to-Small Distillation)的策略,让强大的大模型把自己的“思考过程”教给小模型,让小模型也能拥有接近大模型的智商。

解决方法/算法的通俗解释

想象一下,这是在训练一个“机器人驾驶员”。

  • MoT架构就像是给驾驶员配了两个专门的助手:一个专门负责“看路”(处理图像),一个专门负责“听导航”(处理文字),而不是让一个助手同时干两件事导致手忙脚乱。
  • 视觉潜token就像是驾驶员脑海里对当前路况生成的一个“核心印象”,这个印象直接决定了他怎么理解导航语音。
  • 大带小就像是让一个经验丰富的老司机(32B大模型)坐在新手(2B小模型)旁边,不仅告诉新手该怎么做,还把自己的思考逻辑直接传授给他。

解决方法的具体做法

  1. 数据大杂烩:喂给模型海量数据,包括普通图文、机器人操作视频、3D空间坐标、物体深度信息等(总计超600B tokens)。
  2. 分阶段训练
    • 预训练:用大数据打基础,学会看懂图像和理解语言。
    • 中期训练:引入专门的具身和空间数据,让模型学会“深度思考”(Chain-of-Thought)。
    • 强化学习:通过打分机制(Reward),让模型自己试错,不断优化自己的回答,直到满分。
    • 蒸馏:最后,让32B的大模型去指导2B的小模型做题,把大模型的“解题思路”压缩进小模型里。

基于前人的哪些方法

  • 基于Vision Transformer (ViT)进行图像编码。
  • 借鉴了Mixture-of-Experts (MoE)的思想,发展出了针对模态的Mixture-of-Transformers (MoT)
  • 使用了Chain-of-Thought (CoT)Rejection Sampling等强化学习方法来提升推理能力。

实验设置、数据、评估方式、结论

  • 模型规模:MoT-2B(20亿参数,边缘端) vs MoE-A32B(320亿参数,云端)。
  • 数据集:自建了包含1亿+样本的高质量数据集,涵盖视觉感知、空间、具身任务。
  • 评估基准:在22个公开基准测试中横扫千军,包括视觉感知(CV-Bench)、空间理解(3DSRBench)、机器人任务(RoboBench)等。
  • 结论
    • 2B小模型:在同类小模型中拿了16个第一,甚至能打败参数量比它大的竞品,且在通用任务上不输Qwen3-VL。
    • 32B大模型:性能对标甚至超越了Gemini 3.0 Pro等顶尖模型。
    • 真机测试:在真实的机械臂(插头打包、叠餐具、挂杯子)任务中,成功率显著高于基线模型(π0/π0.5)。

提到的同类工作

  • 通用VLM:Qwen3-VL, Gemini 3.0, GPT-5
  • 具身/机器人模型:RoboBrain 2.5, RoboMind, RT-X, OS-Copilot

和本文相关性最高的3个文献

  1. Liang et al., 2024 (Mixture-of-Transformers):本文核心架构MoT的直接理论基础,提供了模态自适应计算的思路。
  2. Zelikman et al., 2024 (Latent Thinking):启发了本文使用Visual Latent Tokens来连接视觉与语言,增强模型的感知表示。
  3. Shao et al., 2024 (DeepSeekMath / Iterative RL):本文在后训练阶段采用的迭代强化学习范式的参考来源,用于提升模型的深度思考能力。

我的

  1. 训练了一个32B的VLM,只能做VQA和Spatial reasoning任务。然后蒸馏到一个2B的VLM上,然后加了一个action expert头(和pi系列一样)。
http://www.jsqmd.com/news/725932/

相关文章:

  • FernFlower深度剖析:Java字节码逆向工程的核心引擎技术
  • SAP重复制造反冲避坑指南:MFBF与BAPI_REPMANCONF1_CREATE_MTS配置要点详解
  • 天津AI SEO公司排行:适配AI搜索生态的服务商推荐 - 资讯焦点
  • 国防科技大学 PiLoT(1)论文 - MKT
  • 5分钟掌握:MiGPT智能对话记忆功能终极指南
  • 如何全面掌握Adobe软件激活:深度解析GenP 3.0的技术原理与实用技巧
  • 山东一卡通回收攻略:最全渠道推荐与回收流程详解 - 团团收购物卡回收
  • 如何安全获取阿里云盘Refresh Token:面向新手的完整指南
  • pycatia:5大策略实现CATIA V5自动化设计效率提升300%
  • 日活1万的APP,一个月到底能赚多少钱?(附测算公式)
  • 暗黄长斑还缺水?无极秀美白淡斑面霜,一瓶解锁三重肌肤惊喜 - 资讯焦点
  • 别再手动敲了!SAP CJ20N创建WBS的三种高效方法(附标准模板配置CJ91)
  • 五一劳动节视频素材下载平台怎么挑?看版权、场景、模板和音频资源 - Fzzf_23
  • 2026年京东云部署OpenClaw/Hermes Agent教程+百炼token Plan全流程攻略速成
  • 厦门糖包定制:小包装里的大服务能力 - 新闻观察者
  • SSD突然变砖别慌!实测Disk Drill和微软官方工具,教你抢救误删文件(附避坑指南)
  • 北京拓兴地坪工程:通州区水泥自流平哪家好 - LYL仔仔
  • 季中OTB为什么总是失控:鞋服零售商品企划的核心矛盾与解法
  • Windows平台APK安装革命:告别模拟器的智能安卓应用部署方案
  • 2026年五大一二次融合成套设备厂商推荐!
  • 2026年企业级AiPPT私有化部署首选 AiPPT.cn以安全与定制赋能企业数字化办公 - 资讯焦点
  • 客服机器人匹配客户语言风格?Agent系统学客户用词语气,沟通更亲切?
  • 别再写错command了!Docker Compose传参的3种正确姿势与1个常见误区
  • 保姆级教程:用uni-app开发小程序WiFi连接功能(附iOS权限配置避坑指南)
  • 7大Masa Mods汉化包:如何让Minecraft中文玩家轻松使用全家桶工具?
  • 3步开启VRChat跨语言社交:VRCT实时翻译工具完整指南
  • 前端性能优化:关键渲染路径优化
  • 关于“不发货、延迟发货、不退款”等网络舆情的安团官方澄清声明 - 资讯焦点
  • 陕西中坤羽衡环保科技:洛南三布五油销售公司 - LYL仔仔
  • 如何快速掌握Illustrator批量替换技巧:设计师的效率革命指南