当前位置：首页 > news >正文

具身智能 (Embodied AI) 与机器人 Agent

news 2026/6/12 19:09:32

从零到一构建具身智能机器人Agent：从Transformer预训练到真实世界/仿真环境落地实践

副标题：结合大语言模型、强化学习、视觉-语言模型的端到端系统设计与核心代码解析

摘要/引言

问题陈述

过去十年，大语言模型（LLM）、视觉-语言模型（VLM）在自然语言理解、生成、多模态问答、文本生成代码等“非具身”任务上取得了革命性突破——从GPT-3到GPT-4o，从CLIP到Gemini，这些模型似乎已经“无所不知”。但当我们想让它们走出虚拟屏幕，在真实物理世界或高保真仿真环境中自主行动、完成复杂任务（比如“给我泡一杯无糖美式咖啡”“把散落在客厅地板上的乐高分类放进不同颜色的收纳盒”）时，却遇到了巨大的挑战：

知识的“错位”：LLM/VLM的知识来自互联网文本/图像，缺乏对物理世界的直观感知（embodied perception）和操作经验（embodied manipulation）——它们知道“咖啡粉要放在过滤纸中间”，但不知道真实的“德龙咖啡机EC685M”过滤手柄的卡槽有多深、拧动时需要多大的扭矩；
输出的“抽象”：LLM/VLM通常输出的是文本描述（“拿起水杯，走到饮水机接水”），而机器人Agent需要的是低维、连续的动作指令（比如机械臂的关节角度序列、移动机器人的线速度角速度序列）；
环境的“不确定性”：真实世界不是静态的、完美标注的——光照会变、杯子可能被碰倒、咖啡粉可能撒在桌面上；
任务的“长时序性”：泡一杯咖啡需要数十甚至上百个步骤，任何一个小的失误（比如接水时溢出来）都可能导致整个任务失败，LLM/VLM的“短记忆”和“单步规划能力”无法胜任。

核心方案

本文提出一套端到端的具身智能机器人Agent系统设计方案，该方案融合了以下核心技术：

视觉-语言-动作多模态预训练模型（VLAM）：作为Agent的“大脑核心”，将文本指令、机器人的第一人称视角图像（ego-centric vision）映射为中间级的“动作原语（action primitives）”或直接的低维动作；
分层决策规划框架：分为“任务规划层（Task Planner）”、“动作原语调度层（Primitive Scheduler）”和“低维控制层（Low-level Controller）”，解决长时序任务的分解和执行问题；
强化学习微调（RL Fine-tuning）：结合仿真环境（如NVIDIA Isaac Sim、MuJoCo）和真实世界数据，对VLAM进行微调，提升其对物理世界的适应能力；
多模态反馈机制：利用视觉反馈（检测动作是否成功）、触觉反馈（如果有触觉传感器）、语言反馈（如果任务失败，让人类通过语言纠正），让Agent能够在线修正错误。

主要成果/价值

读完本文，你将能够：

深刻理解具身智能（Embodied AI）与机器人Agent的核心概念、发展历史、技术边界；
掌握视觉-语言-动作多模态预训练的基本原理和核心算法（如PaLM-E、RT-2、OpenVLA）；
学会搭建分层决策规划框架，并将LLM/VLM与机器人低维控制结合；
在NVIDIA Isaac Sim仿真环境中，从零到一训练一个简单的机器人Agent（比如“抓取红色积木并放进蓝色篮子”），并能尝试迁移到简单的真实硬件（如JetBot、Leap Motion控制的UR5e机械臂仿真器）；
了解具身智能领域的最佳实践、常见问题和未来发展趋势。

文章导览

本文分为四个部分，共16个章节：

第一部分：引言与基础：介绍具身智能与机器人Agent的核心概念、发展历史、目标读者、前置知识和文章目录；
第二部分：核心内容：深入探讨问题背景、理论基础、环境准备、VLAM核心实现、分层决策框架搭建、强化学习微调等；
第三部分：验证与扩展：展示仿真环境中的训练结果、性能优化、常见问题、未来展望；
第四部分：总结与附录：总结全文、列出参考资料、提供完整的源代码和配置文件。

目标读者与前置知识

目标读者

本文适合以下读者：

有机器学习入门知识的开发者：了解监督学习、强化学习的基本概念（比如损失函数、梯度下降、DQN、PPO）；
对大语言模型/视觉-语言模型感兴趣的开发者：用过Hugging Face Transformers库，了解Transformer的基本架构（比如Encoder-Decoder、Self-Attention、Cross-Attention）；
机器人初学者或爱好者：对移动机器人、机械臂有基本的了解，知道关节角度、末端执行器（End-Effector）等概念；
想落地AI到实体的产品经理或创业者：了解具身智能的技术现状和应用场景，能够评估产品可行性。

前置知识

阅读本文前，你需要具备以下基础知识或技能：

Python编程：熟练使用Python 3.8+，掌握NumPy、Pandas、Matplotlib等常用库；
深度学习框架：熟悉PyTorch 2.0+（本文主要使用PyTorch）；
机器人仿真基础：了解过至少一个机器人仿真环境（如Gazebo、MuJoCo、NVIDIA Isaac Sim）——如果没有也没关系，本文会详细讲解NVIDIA Isaac Sim的安装和使用；
Hugging Face生态：用过Hugging Face Transformers、Datasets、Accelerate等库；
Git和GitHub：能够从GitHub克隆代码、提交修改。

文章目录

第一部分：引言与基础
1.1 摘要/引言
1.2 目标读者与前置知识
1.3 文章目录
1.4 具身智能与机器人Agent的核心概念
1.5 具身智能与机器人Agent的发展历史
第二部分：核心内容
2.1 问题背景与动机：为什么具身智能是AI的下一个 frontier？
2.2 核心概念与理论基础（深度版）
2.2.1 具身智能的核心要素：感知（Perception）、认知（Cognition）、行动（Action）、反馈（Feedback）
2.2.2 机器人Agent的核心架构：经典三层架构 vs. 端到端架构 vs. 分层端到端架构
2.2.3 视觉-语言-动作多模态预训练的数学模型
2.2.4 强化学习在具身智能中的应用：在线强化学习 vs. 离线强化学习 vs. 模仿学习
2.3 环境准备：搭建具身智能机器人Agent的开发环境
2.3.1 硬件要求与推荐配置
2.3.2 软件安装：NVIDIA Isaac Sim、PyTorch 2.0+、Hugging Face生态、MuJoCo（可选）
2.3.3 配置NVIDIA Isaac Sim的Python环境
2.3.4 一键部署脚本与Git仓库地址
2.4 分层决策规划框架的设计与实现
2.4.1 任务规划层：基于LLM的Few-Shot/Chain-of-Thought任务分解
2.4.2 动作原语调度层：基于VLAM的原语匹配与参数生成
2.4.3 低维控制层：基于逆运动学（IK）的关节角度计算与轨迹跟踪
2.5 视觉-语言-动作多模态预训练模型（VLAM）的核心实现——以OpenVLA为例
2.5.1 OpenVLA的核心架构：Vision Backbone（SigLIP）、Language Backbone（Qwen-2.5-0.5B-Instruct）、Cross-Modal Fusion（Mamba-2 Adapter）、Action Head
2.5.2 数据集准备：从RoboSet、DROID、CALVIN等开源具身数据集中加载数据
2.5.3 预训练与微调：使用LoRA（Low-Rank Adaptation）和QLoRA（Quantized LoRA）进行高效微调
2.5.4 核心代码解析：数据预处理、模型前向传播、损失函数计算
2.6 强化学习微调VLAM——以PPO+模仿学习为例
2.6.1 强化学习环境封装：将NVIDIA Isaac Sim封装为Gymnasium环境
2.6.2 奖励函数设计：稀疏奖励 vs. 稠密奖励 vs. 奖励塑造（Reward Shaping）
2.6.3 PPO算法的核心实现
2.6.4 结合模仿学习的PPO微调：行为克隆（BC）初始化 + PPO微调
第三部分：验证与扩展
3.1 结果展示与验证：在NVIDIA Isaac Sim中训练“抓取红色积木放进蓝色篮子”的Agent
3.1.1 训练过程监控：损失函数曲线、成功率曲线
3.1.2 测试结果展示：不同光照、不同位置、不同大小积木的测试成功率
3.1.3 验证方案：让读者能够复现我们的训练结果
3.2 性能优化与最佳实践
3.2.1 模型压缩：量化、剪枝、蒸馏
3.2.2 训练加速：分布式训练、混合精度训练、Flash Attention
3.2.3 推理加速：TensorRT、ONNX Runtime
3.2.4 具身智能的最佳实践：数据收集、奖励函数设计、安全控制
3.3 常见问题与解决方案（FAQ）
3.3.1 NVIDIA Isaac Sim安装失败怎么办？
3.3.2 模型训练时显存不足怎么办？
3.3.3 Agent在训练环境中表现很好，但在真实环境中表现很差怎么办？
3.3.4 长时序任务失败率很高怎么办？
3.4 未来展望与扩展方向
3.4.1 技术趋势：更强大的VLAM、更高效的强化学习、多Agent协作
3.4.2 应用场景：家庭服务机器人、工业机器人、医疗机器人、教育机器人
3.4.3 挑战与机遇：安全问题、伦理问题、数据问题
第四部分：总结与附录
4.1 总结
4.2 参考资料
4.3 附录
4.3.1 完整的源代码链接（GitHub）
4.3.2 完整的配置文件（requirements.txt、Isaac Sim配置文件）
4.3.3 常见具身数据集对比表
4.3.4 常见具身智能机器人Agent对比表

1.4 具身智能与机器人Agent的核心概念

核心概念

在深入探讨技术细节之前，我们必须先明确几个核心概念，避免混淆：

1.4.1 具身智能（Embodied AI）

具身智能是人工智能的一个分支，其核心思想是：智能必须与物理世界中的“身体”（Embodiment）紧密结合，通过感知、行动、反馈的闭环，才能真正理解世界、学习知识、解决问题。

具身智能的概念最早可以追溯到20世纪80年代的“布鲁克斯运动（Brooksian Movement）”——麻省理工学院的罗德尼·布鲁克斯（Rodney Brooks）教授提出了“无表征智能（Intelligence Without Representation）”和“基于行为的机器人学（Behavior-Based Robotics）”的思想，反对当时主流的“符号主义AI”（Symbolic AI）和“认知主义AI”（Cognitive AI）。布鲁克斯认为，符号主义AI试图用抽象的符号表示世界，但真实世界是复杂的、动态的、不确定的，符号无法完全描述；相反，智能应该从简单的行为（比如“避障”“趋光”）开始，通过与物理世界的交互，逐步演化出更复杂的行为。

具身智能与传统的“非具身AI”（Disembodied AI）有什么区别？我们可以用一个简单的例子来说明：

非具身AI：比如GPT-4o，你问它“如何泡一杯无糖美式咖啡”，它会给你一段非常详细的文本描述，甚至可以生成泡咖啡的图片，但它无法真正泡一杯咖啡；
具身AI：比如一个安装了具身智能系统的家庭服务机器人，它可以通过第一人称视角摄像头“看到”咖啡粉、过滤纸、咖啡机、水杯，通过机械臂的触觉传感器“感觉到”过滤手柄的扭矩，通过与物理世界的交互“学习”到泡咖啡的正确方法，最终真正泡一杯无糖美式咖啡。

具身智能的核心属性包括：

属性维度	描述
具身性（Embodiment）	有一个物理或虚拟的“身体”，能够在物理或虚拟环境中移动、操作物体；
感知性（Perception）	能够通过传感器（如摄像头、激光雷达、触觉传感器）感知环境；
认知性（Cognition）	能够理解感知到的信息、规划行动、学习知识；
行动性（Action）	能够通过执行器（如轮子、机械臂、手指）作用于环境；
闭环性（Closed-Loop）	感知→认知→行动→反馈→感知的闭环，能够在线修正错误；
适应性（Adaptability）	能够适应环境的变化（如光照变化、物体位置变化）；

1.4.2 机器人Agent

机器人Agent是具身智能的具体实现载体——它是一个能够在物理或虚拟环境中自主行动、完成特定任务的实体。

在人工智能领域，“Agent”（智能体）是一个非常经典的概念，最早由马文·明斯基（Marvin Minsky）在1986年的著作《心智社会》（Society of Mind）中提出。一个经典的智能体架构包括：

传感器（Sensors）：感知环境的状态；
执行器（Actuators）：作用于环境；
控制器（Controller）：根据传感器的输入，决定执行器的输出。

机器人Agent是智能体的一个子集，其特点是：

有一个物理或虚拟的身体；
主要在物理或高保真虚拟环境中运行；
主要完成与物理世界交互的任务（如移动、操作物体）。

根据智能程度的不同，机器人Agent可以分为以下几类：

类型	描述	例子
预编程机器人（Pre-programmed Robot）	完全按照预定义的程序行动，没有感知和学习能力；	工厂里的焊接机器人、装配机器人；
反应式机器人（Reactive Robot）	只能根据当前的传感器输入做出反应，没有记忆和规划能力；	布鲁克斯的“六足机器人Genghis”、简单的扫地机器人（只有避障功能）；
基于状态的机器人（State-Based Robot）	有记忆能力，能够记录环境的历史状态，根据历史状态和当前状态做出反应；	有SLAM（同步定位与地图构建）功能的扫地机器人；
决策规划机器人（Deliberative Robot）	有规划能力，能够根据目标、环境状态、行动能力，规划出一系列行动；	早期的室内导航机器人；
具身智能机器人Agent（Embodied AI Robot Agent）	有感知、认知、行动、反馈、学习能力，能够适应环境的变化，完成复杂的长时序任务；	本文要构建的机器人Agent、波士顿动力的Spot（部分功能）、Google DeepMind的RoboCat；

1.4.3 视觉-语言模型（VLM）

视觉-语言模型是一类能够同时处理视觉输入（如图像、视频）和语言输入（如文本、语音）的多模态模型，其主要功能包括：

视觉问答（VQA）：根据图像回答文本问题；
图像描述（Image Captioning）：根据图像生成文本描述；
文本生成图像（Text-to-Image Generation）：根据文本描述生成图像（如DALL-E 3、MidJourney）；
跨模态检索（Cross-Modal Retrieval）：根据文本检索图像，或根据图像检索文本（如CLIP、SigLIP）；
多模态对话（Multimodal Dialogue）：同时处理图像和文本的对话（如GPT-4o、Gemini 1.5 Pro）。

视觉-语言模型是具身智能机器人Agent的核心感知和认知组件——它能够将机器人的第一人称视角图像转换为文本描述，或将文本指令转换为对图像的理解，为后续的任务规划和动作生成提供基础。

1.4.4 动作原语（Action Primitive）

动作原语是一类简单、可复用、参数化的动作，比如“移动到指定位置”“抓取指定物体”“放置指定物体到指定位置”“旋转指定物体到指定角度”。

动作原语的作用是降低机器人Agent的动作空间维度——机器人的低维动作空间通常非常大（比如UR5e机械臂有6个关节，每个关节的角度范围是[-π, π]，如果用连续值表示，动作空间是无限的；如果用离散值表示，每个关节离散化为100个值，动作空间就是100^6 = 1e12，几乎无法直接学习）。而动作原语的参数空间通常很小（比如“移动到指定位置”只有3个参数：x、y、z坐标；“抓取指定物体”只有2个参数：物体的位置和抓取力度），因此更容易学习。

动作原语可以分为以下几类：

类型	描述	例子
移动原语（Locomotion Primitives）	控制机器人的移动；	向前移动、向后移动、向左移动、向右移动、原地旋转、移动到指定坐标；
操作原语（Manipulation Primitives）	控制机器人的末端执行器操作物体；	抓取、放置、旋转、推动、拉动；
感知原语（Perception Primitives）	控制机器人的传感器感知环境；	拍照、扫描激光雷达、检测指定物体、识别物体的属性（如颜色、大小、形状）；

1.4.5 分层决策规划框架（Hierarchical Decision-Making and Planning Framework）

分层决策规划框架是一种将复杂的长时序任务分解为多个简单的子任务，再将子任务分解为多个动作原语，最后将动作原语转换为低维动作指令的框架。

分层决策规划框架的核心思想是**“分而治之”（Divide and Conquer）**——复杂的任务很难直接解决，但分解为简单的子任务和动作原语后，就容易解决了。

分层决策规划框架通常分为以下几层（层数可以根据任务的复杂度调整）：

任务规划层（Task Planner）：最高层，负责将用户的自然语言指令分解为一系列有序的子任务；
子任务调度层（Subtask Scheduler）：中间层，负责将每个子任务分解为一系列有序的动作原语，并生成动作原语的参数；
低维控制层（Low-level Controller）：最低层，负责将每个动作原语转换为机器人执行器的低维动作指令（如关节角度序列、线速度角速度序列），并控制机器人执行；
反馈层（Feedback Layer）：贯穿所有层，负责收集机器人的传感器反馈（如视觉反馈、触觉反馈），判断任务、子任务、动作原语是否成功，如果失败，则返回上层重新规划。

1.5 具身智能与机器人Agent的发展历史

具身智能与机器人Agent的发展历史可以分为以下几个阶段：

阶段	时间范围	核心思想	代表性成果
符号主义与认知主义阶段（Symbolic & Cognitive AI）	1950s-1980s	智能是对抽象符号的处理，机器人需要先构建环境的符号模型，再根据模型规划行动；	Shakey the Robot（1966-1972，斯坦福研究所，第一个能够自主规划行动的移动机器人）；
布鲁克斯运动与基于行为的机器人阶段（Brooksian & Behavior-Based Robotics）	1980s-1990s	智能不需要抽象的符号表示，应该从简单的行为开始，通过与物理世界的交互演化；	Rodney Brooks的“包容架构（Subsumption Architecture）”、六足机器人Genghis（1989）、四足机器人Attila（1991）；
SLAM与基于状态的机器人阶段（SLAM & State-Based Robotics）	1990s-2010s	机器人需要构建环境的几何模型（SLAM），记录环境的历史状态，根据历史状态和当前状态做出反应；	卡尔曼滤波（Kalman Filter）、扩展卡尔曼滤波（EKF）、粒子滤波（Particle Filter）、Google的Tango（2014，第一个消费级SLAM设备）；
深度学习与模仿学习阶段（Deep Learning & Imitation Learning）	2010s-2020s	利用深度学习从大量的演示数据中学习机器人的控制策略；	NVIDIA的DextroNet（2016，深度学习抓取）、Google DeepMind的RoboNet（2019，大规模机器人演示数据集）、OpenAI的Dactyl（2018，强化学习+模仿学习的五指机械手）；
大语言模型/视觉-语言模型与具身智能阶段（LLM/VLM & Embodied AI）	2020s-至今	利用大语言模型/视觉-语言模型的强大认知能力，作为机器人Agent的“大脑核心”，实现端到端或分层端到端的具身智能；	Google DeepMind的PaLM-E（2023，第一个大规模VLAM）、Google DeepMind的RT-2（2023，端到端的视觉-语言-动作模型）、CMU与Meta的OpenVLA（2024，开源的大规模VLAM）、波士顿动力的Spot与ChatGPT的结合（2023）；

1.5.1 符号主义与认知主义阶段（1950s-1980s）

符号主义与认知主义阶段是人工智能的早期阶段，其核心思想是：智能是对抽象符号的处理——人类的思维可以用符号表示，机器人也可以通过处理符号来模拟人类的思维。

代表性成果是Shakey the Robot（斯坦福研究所，1966-1972）：

Shakey是一个移动机器人，有一个摄像头、一个激光测距仪、一个轮子驱动系统；
Shakey的核心架构是“感知-建模-规划-执行”（Sense-Model-Plan-Act）：
1. 感知：通过摄像头和激光测距仪感知环境；
2. 建模：将感知到的信息转换为环境的符号模型（比如“房间里有一张桌子，桌子上有一个红色的方块”）；
3. 规划：根据用户的指令（比如“把红色的方块推到桌子外面”）和环境的符号模型，使用STRIPS（Stanford Research Institute Problem Solver）算法规划出一系列行动；
4. 执行：控制机器人执行规划好的行动。
Shakey的局限性：
1. 环境必须是静态的、完全已知的、完美标注的——如果环境中有任何变化（比如有人把方块移走了），Shakey就会失败；
2. 符号模型的构建非常困难——需要大量的人工标注；
3. 规划算法的复杂度很高——只能处理非常简单的任务；
4. 没有学习能力——无法从失败中学习。

1.5.2 布鲁克斯运动与基于行为的机器人阶段（1980s-1990s）

布鲁克斯运动与基于行为的机器人阶段是对符号主义与认知主义阶段的反思与反驳——罗德尼·布鲁克斯教授认为，符号主义AI试图用抽象的符号表示世界，但真实世界是复杂的、动态的、不确定的，符号无法完全描述；相反，智能应该从简单的行为开始，通过与物理世界的交互，逐步演化出更复杂的行为。

布鲁克斯提出了**“包容架构（Subsumption Architecture）”**：

包容架构是一种分层的、基于行为的机器人架构，每一层都是一个简单的行为，高层行为可以“包容”（Subsume）低层行为；
例如，一个简单的扫地机器人的包容架构可以分为以下几层：
1. 最低层（层0）：避障行为——如果机器人前方有障碍物，就原地旋转；
2. 中间层（层1）：随机漫游行为——如果没有障碍物，就随机向前移动；
3. 最高层（层2）：充电行为——如果电池电量低，就移动到充电站充电。
包容架构的优点：
1. 不需要构建环境的符号模型——直接根据传感器输入做出反应；
2. 反应速度快——没有复杂的规划过程；
3. 鲁棒性强——能够适应环境的一些变化；
4. 易于实现——每一层都是一个简单的行为。
包容架构的局限性：
1. 没有记忆能力——只能根据当前的传感器输入做出反应；
2. 没有规划能力——无法完成复杂的长时序任务；
3. 行为的设计非常困难——需要人工设计每一个行为，以及行为之间的包容关系。

代表性成果是六足机器人Genghis（麻省理工学院，1989）和四足机器人Attila（麻省理工学院，1991）：

Genghis是一个六足机器人，有24个自由度，能够在崎岖的地形上行走、攀爬；
Attila是一个四足机器人，有32个自由度，能够在崎岖的地形上行走、攀爬、抓取物体；
这两个机器人都使用了包容架构，没有构建环境的符号模型，只能根据当前的传感器输入做出反应，但它们的鲁棒性非常强，能够适应环境的一些变化。

1.5.3 SLAM与基于状态的机器人阶段（1990s-2010s）

SLAM与基于状态的机器人阶段是对布鲁克斯运动与基于行为的机器人阶段的补充与发展——布鲁克斯的机器人没有记忆能力和规划能力，无法完成复杂的长时序任务；而基于状态的机器人有记忆能力，能够记录环境的历史状态，根据历史状态和当前状态做出反应，甚至能够规划行动。

SLAM（同步定位与地图构建，Simultaneous Localization and Mapping）是基于状态的机器人的核心技术——它能够让机器人在未知环境中，同时完成两个任务：

定位（Localization）：确定机器人在环境中的位置；
地图构建（Mapping）：构建环境的几何模型（如栅格地图、点云地图、语义地图）。

SLAM的核心算法包括：

卡尔曼滤波（Kalman Filter）：适用于线性高斯系统；
扩展卡尔曼滤波（EKF，Extended Kalman Filter）：适用于非线性高斯系统；
粒子滤波（Particle Filter）：适用于非线性非高斯系统；
图优化SLAM（Graph-Based SLAM）：适用于大规模环境，比如Google的Cartographer。

代表性成果是Google的Tango（2014，第一个消费级SLAM设备）和Roomba i7+（2018，有SLAM功能的扫地机器人）：

Tango是一个智能手机/平板设备，有一个摄像头、一个激光测距仪、一个惯性测量单元（IMU），能够在未知环境中实时定位和构建地图；
Roomba i7+是一个扫地机器人，有一个摄像头、一个激光测距仪、一个IMU，能够在未知环境中实时定位和构建地图，根据地图规划清扫路线，甚至能够记住多个房间的地图。

1.5.4 深度学习与模仿学习阶段（2010s-2020s）

深度学习与模仿学习阶段是机器人领域的一次革命——传统的机器人控制策略需要人工设计，而深度学习可以从大量的数据中自动学习控制策略；模仿学习（Imitation Learning）是一种从人类演示数据中学习控制策略的方法，它比强化学习更容易实现，因为不需要设计复杂的奖励函数。

模仿学习可以分为以下几类：

行为克隆（BC，Behavioral Cloning）：将人类演示数据中的“状态-动作对”作为监督学习的训练数据，学习一个从状态到动作的映射函数；
逆向强化学习（IRL，Inverse Reinforcement Learning）：从人类演示数据中推断出奖励函数，再使用强化学习学习控制策略；
生成对抗模仿学习（GAIL，Generative Adversarial Imitation Learning）：结合生成对抗网络（GAN）和强化学习，从人类演示数据中学习控制策略。

代表性成果是：

NVIDIA的DextroNet（2016，深度学习抓取）：使用卷积神经网络（CNN）从RGBD图像中学习抓取策略，抓取成功率达到了90%以上；
OpenAI的Dactyl（2018，强化学习+模仿学习的五指机械手）：在仿真环境中使用强化学习训练五指机械手，然后使用“领域随机化（Domain Randomization）”将策略迁移到真实的五指机械手，能够旋转魔方、叠积木；
Google DeepMind的RoboNet（2019，大规模机器人演示数据集）：收集了来自19个不同机器人的1500万次演示数据，能够用于训练通用的机器人控制策略。

1.5.5 大语言模型/视觉-语言模型与具身智能阶段（2020s-至今）

大语言模型/视觉-语言模型与具身智能阶段是具身智能领域的第二次革命——大语言模型/视觉-语言模型有强大的认知能力、理解能力、推理能力、生成能力，能够作为机器人Agent的“大脑核心”，实现端到端或分层端到端的具身智能。

代表性成果是：

Google DeepMind的PaLM-E（2023，第一个大规模VLAM）：将PaLM（大语言模型）和ViT（视觉Transformer）结合，能够处理文本、图像、机器人状态的多模态输入，输出文本指令或动作指令，在仿真环境和真实环境中的多个具身任务上取得了SOTA（State-of-the-Art）结果；
Google DeepMind的RT-2（2023，端到端的视觉-语言-动作模型）：将PaLM-E和RT-1（Google的机器人控制模型）结合，能够直接将文本指令和第一人称视角图像映射为低维动作指令，不需要动作原语，在真实环境中的多个具身任务上取得了SOTA结果；
CMU与Meta的OpenVLA（2024，开源的大规模VLAM）：基于Qwen-2.5-0.5B-Instruct（大语言模型）、SigLIP（视觉-语言模型）、Mamba-2 Adapter（跨模态融合），在来自22个不同机器人的1000万次演示数据上预训练，能够处理文本、图像、机器人状态的多模态输入，输出动作原语或低维动作指令，是目前最强大的开源VLAM；
波士顿动力的Spot与ChatGPT的结合（2023）：将Spot的传感器数据（如图像、激光雷达数据）转换为文本描述，输入到ChatGPT，ChatGPT根据文本描述规划行动，再将行动转换为Spot的低维动作指令，Spot能够根据用户的自然语言指令完成“拍照”“导航”“检测物体”等任务。

（未完待续，接下来将进入第二部分：核心内容，深入探讨问题背景、理论基础、环境准备等）

查看全文

http://www.jsqmd.com/news/1000500/