当前位置: 首页 > news >正文

【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分

基础信息(英文):

1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery
2.时间: 2026.04
3.机构: Generalist AI
4.3个英文关键词: GEN-1, Embodied Intelligence, VLA

1句话通俗总结本文干了什么事情

本文发布了新一代通用机器人模型GEN-1,通过大规模物理数据预训练和算法优化,首次让机器人在简单任务上达到了接近人类的“精通”水平(高成功率、高速度、能即兴应变)。

研究痛点:现有研究不足 / 要解决的具体问题

现有机器人模型(如GEN-0)虽然具备通用性,但成功率(约64%)和速度不足以商用;传统方法依赖昂贵的遥操作数据且泛化能力差;机器人缺乏在未知突发状况下即兴解决问题的能力(Improvisational Intelligence)。

核心方法:关键技术、模型或研究设计(简要)

基于GEN-0架构,利用超过50万小时的人类穿戴设备物理交互数据进行预训练,结合RL(强化学习)、多模态人类指导及推理时算法优化,定义了“精通”(Mastery)作为评估标准。

深入了解部分

作者想要表达什么

作者旨在证明:通过Scaling Laws(缩放定律)持续扩大物理交互数据和算力,可以像训练大语言模型(LLM)一样,让机器人逐步掌握物理世界的通用智能。GEN-1证明了“精通”是可以通过数据和算法量变引起质变达到的商业门槛。

相比前人创新在哪里

  1. 数据来源革新:预训练数据完全不使用昂贵的机器人遥操作数据,而是利用低成本的人类穿戴设备捕捉的50万+小时物理活动数据。
  2. 定义新标准:提出了“精通”(Mastery)的概念,包含可靠性(99%成功率)、速度(比SOTA快3倍)和即兴智能(Improvisation)三个维度。
  3. 系统级优化:不仅是一个模型权重,而是包含推理时协调、控制硬化等系统组件的完整系统。

解决方法/算法的通俗解释

想象给机器人喂了海量人类如何干活的视频和动作数据(预训练),让它先学会“物理常识”。然后针对具体任务(如叠衣服),只用极少量(约1小时)的该任务数据进行“微调”。模型内部通过Harmonic Reasoning等技术,在运行时实时计算最优动作。

解决方法的具体做法

  1. 预训练:在无机器人数据的情况下,使用大规模人类物理交互数据训练基础模型。
  2. 适应特定任务:针对特定任务(如装手机),仅使用约1小时的特定机器人数据进行微调。
  3. 系统优化:引入强化学习(RL)、多模态人类指导以及推理时的Harmonic Reasoning技术,提升动作的流畅度和速度。

基于前人的哪些方法

基于该团队之前的GEN-0模型(证明了机器人领域存在Scaling Laws),并借鉴了VLM(视觉语言模型)、VLA(视觉语言动作模型)以及World Models(世界模型)的研究思路。

实验设置、数据、评估方式、结论

  • 数据:预训练数据超50万小时(人类穿戴设备数据,无机器人数据);特定任务微调数据仅需约1小时。
  • 评估方式:对比GEN-0和从零开始训练的模型,评估任务成功率(Reliability)、任务完成时间(Speed)以及面对干扰时的恢复能力(Improvisation)。
  • 结论:GEN-1在多个任务(如折叠盒子、装手机)上达到99%的成功率(GEN-0为64%),速度提升约3倍,且能处理未在训练中见过的突发状况。

提到的同类工作

PaLM-E, RT-2, π0, π*0.6, GPT-3

和本文相关性最高的3个文献

  1. Scaling Laws in Robotics with GEN-0 (Generalist, 2025)<2025.11>
  2. π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)<2024>
  3. RT-2: Vision-Language-Action Models (Brohan et al., 2023)<2023>

我的

依然大数据,依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练,就能完成相应任务了。

http://www.jsqmd.com/news/861414/

相关文章:

  • 2026年玉米粉加工设备排行:小型磨面粉机器/小麦磨面机/新型磨面粉机/玉米加工机械/玉米深加工设备/玉米磨面粉机/选择指南 - 优质品牌商家
  • 2026泰州AI优化可靠服务商TOP5排行:靖江网站建设/靖江网络公司/兴化AI优化/兴化geo优化/兴化做网站/选择指南 - 优质品牌商家
  • 大连旅游全攻略:行程规划 + 交通住宿 + 避坑方案(程序员出行版)
  • 【项目实训】法律文书智能摘要系统6
  • 衡阳沙发翻新换皮靠谱商家优选推荐|匠阁沙发翻新、御匠沙发翻新、锦修沙发翻新三大品牌、全品类沙发翻新一站式服务 - 卓信营销
  • 2026年5月更新:高压电缆回收标杆企业盘点,保定万铭综合实力解析 - 2026年企业推荐榜
  • 技术员笔记:PI胶带过锡炉后“断裂”和“残胶”的锅,到底该谁背?
  • 目前热门的饲料颗粒机品牌价格
  • 奇迹 MU 荣耀出征 新区开区 最新地址官方正版下载
  • 2026年5月洛阳旅行社深度:文化定制专家如何赋能企业团建与高端旅行 - 2026年企业推荐榜
  • 如何用Python盲水印技术保护你的数字图像版权:完整指南
  • 焦度计的柱镜值是怎么算出来的
  • 艾灵坞Ailevo新手使用教程:注册即送6000积分[特殊字符]轻松上手AI Agent!
  • 2026哑光砖标杆名录:微哑质感砖/微水泥瓷砖/木纹瓷砖/木纹砖/柔光瓷砖/柔光砖/水磨石瓷砖/爆款瓷砖/瓷砖搭配/选择指南 - 优质品牌商家
  • 舟山沙发翻新换皮靠谱商家优选推荐|匠阁沙发翻新、御匠沙发翻新、锦修沙发翻新三大品牌、全品类沙发翻新一站式服务 - 卓信营销
  • 基于 Binning 亮度 0~255 全域 双系数自适应调节方案
  • 口碑好的包装设备技术服务商
  • 酒店最低保护价收益保障技术逻辑与落地实测:广东酒店管理软件/广东酒店系统/成都RMS酒店管理系统/成都智慧酒店数字化转型方案/选择指南 - 优质品牌商家
  • GPU服务器全景解读(七):整机品牌与主力机型——从国际旗舰到国产标杆
  • ACM下学期第五次周赛
  • 2026年Q2太阳能路灯工程批发厂家综合排行一览:成都小区庭院灯、成都市政太阳能路灯、成都庭院灯定制、成都庭院灯工程批发选择指南 - 优质品牌商家
  • ViMax 为什么会冲上 GitHub Trending:AI 视频生成开始从“出片”转向“制片”
  • 利用Taotoken模型广场为特定任务选择性价比最优模型
  • 光化学烟雾箱搭建全攻略:从选型到出数据的完整指南
  • ChatGPT Plus 怎么购买?2026 开通教程
  • 【C++进阶】深入了解继承
  • IDEA 索引构建卡死在 99% 进度不动了如何强制重置?
  • 语音搜索 GEO 优化,口语化英文短句布局玩法
  • 本地能跑线上崩?MonkeyCode统一云端环境解决团队开发噩梦
  • 【深耕GEO服务,赋能数字升级——西安群蜂云计算,优质GEO服务领航者】