[具身智能-60]:具身智能的核心是让大模型替代传统的预设的规则和固化的算法,从传感器检测到的信号中提取有意义的信息、让大模型进行规划和决策,让大模型进行路径的规划,并指挥执行机构完成相应的动作控制。
用大模型替代传统规则和固化算法”是这一轮技术革命的核心分水岭。
我们可以将你描述的这个过程拆解为三个维度的范式转移(Paradigm Shift),
来深入理解为什么大模型能带来这种颠覆:
1. 感知维度:从“特征工程”到“语义理解”
- 传统模式(规则/固化算法):
- 做法:工程师手动设计算法(如边缘检测、颜色阈值、模板匹配)。
- 局限:只能识别“训练过”或“写死”的物体。如果光线变了、物体换个角度、或者出现了一个没见过的杯子,算法就失效了(鲁棒性差)。它提取的是几何特征,不懂语义。
- 例子:代码写死
if color == red and shape == circle then apple。遇到青苹果或咬了一口的苹果就识别失败。
- 大模型模式(端到端学习):
- 做法:利用预训练的视觉 - 语言大模型(VLM),直接从传感器信号(像素)映射到高维语义空间。
- 优势:具备零样本(Zero-shot)泛化能力。它没见过这个特定的杯子,但它知道“杯子”的概念(有把手、能盛水、易碎)。它能理解场景的上下文(“杯子在桌子边缘,可能会掉”)。
- 核心变化:不再需要人工定义“什么是杯子”的标准和规则,大模型从海量数据中自己学会了世界的常识。
2. 决策与规划维度:从“状态机”到“推理引擎”
- 传统模式(规则/固化算法):
- 做法:使用有限状态机(FSM)或行为树(Behavior Tree)。工程师必须穷举所有可能的情况:
if 障碍物在左 -> 右转,if 电量<20% -> 回充。 - 局限:无法处理长序列任务和未知突发状况。一旦遇到预设逻辑之外的情况(比如路被堵死了,需要搬开椅子),机器人就会“死机”或报错。它没有因果推理能力。
- 例子:指令“去厨房拿水”。如果厨房门开着,它能去;如果门关着,传统程序可能直接报错“路径不可达”,因为它不知道“开门”这个前置动作。
- 做法:使用有限状态机(FSM)或行为树(Behavior Tree)。工程师必须穷举所有可能的情况:
- 大模型模式(推理引擎):
- 做法:大模型作为大脑,利用其内嵌的世界知识进行思维链(Chain of Thought)推理。
- 优势:具备任务分解和异常处理能力。面对“门关了”,它能自动推理出:“要拿水 -> 需进厨房 -> 门关了 -> 需要先执行‘开门’动作 -> 找到门把手 -> 抓取 -> 旋转”。
- 核心变化:从“执行预设脚本”变成了“现场解题”。大模型能处理开放世界中的无限可能性。
3. 控制维度:从“精确计算”到“策略模仿”
- 传统模式(规则/固化算法):
- 做法:基于数学模型的控制器(如PID、MPC)。需要精确的机器人动力学模型和环境模型。
- 局限:对模型误差极其敏感(Sim-to-Real Gap)。如果地面摩擦力变了、负载重量变了,原本调好的参数可能让机器人摔倒。且难以处理复杂的非结构化操作(如叠衣服、插电线)。
- 例子:机械臂抓取位置必须精确到毫米,否则就抓空。
- 大模型模式(策略学习/VLA):
- 做法:视觉 - 语言 - 动作模型(VLA, Vision-Language-Action)。大模型直接输出动作令牌(Action Tokens)或关节扭矩,基于海量机器人操作数据的模仿学习。
- 优势:具备柔顺性和适应性。它不依赖完美的物理公式,而是依赖“经验”(数据)。它像人一样,凭感觉调整力度和角度。
- 核心变化:从“计算最优解”变成了“直觉反应”。大模型学会了手眼协调的通用策略,能迁移到未见过的物体上。
总结:这场变革的本质
本质上是将机器人的智能来源从“工程师写代码”转移到了“现实数据的训练”。
表格
| 维度 | 传统机器人 (规则驱动) | 具身智能机器人 (大模型驱动) |
|---|---|---|
| 智能来源 | 工程师的硬编码 (Hard-coded) | 大数据的预训练 (Pre-trained) |
| 环境假设 | 结构化、已知、静态 | 非结构化、开放、动态 |
| 处理能力 | 擅长重复、高精度任务 | 擅长泛化、推理、复杂交互任务 |
| 扩展性 | 加一个新功能需重写代码 | 加一个新概念只需微调或提示 (Prompt) |
| 核心瓶颈 | 算法规则的覆盖率 | 数据的质量与规模、算力成本 |
需要注意的“混合架构”现实
虽然大模型是核心,但在目前的实际落地中(如特斯拉Optimus、Figure 01),通常采用“大小脑协同”的混合架构,而不是完全抛弃传统算法:
- 大模型(大脑):负责你提到的感知理解、任务规划、宏观决策。它慢(几百毫秒延迟),但聪明,懂常识。
- 传统算法/小模型(小脑/脊髓):负责底层的平衡控制、高频伺服响应、安全保护。它快(微秒级延迟),虽不懂语义,但能保证机器人不摔倒、不撞坏。
结论:具身智能的终极目标,就是让具有极强泛化能力的大模型成为机器人的通用操作系统,让它像人类一样,通过看(感知)、想(规划)、做(控制)来适应这个复杂多变的世界,而不再是一个只能执行固定程序的自动化机器。
