当前位置：首页 > news >正文

[具身智能-60]：具身智能的核心是让大模型替代传统的预设的规则和固化的算法，从传感器检测到的信号中提取有意义的信息、让大模型进行规划和决策，让大模型进行路径的规划，并指挥执行机构完成相应的动作控制。

news 2026/7/13 18:48:12

用大模型替代传统规则和固化算法”是这一轮技术革命的核心分水岭。

我们可以将你描述的这个过程拆解为三个维度的范式转移（Paradigm Shift），

来深入理解为什么大模型能带来这种颠覆：

传统模式（规则/固化算法）：
- 做法：工程师手动设计算法（如边缘检测、颜色阈值、模板匹配）。
- 局限：只能识别“训练过”或“写死”的物体。如果光线变了、物体换个角度、或者出现了一个没见过的杯子，算法就失效了（鲁棒性差）。它提取的是几何特征，不懂语义。
- 例子：代码写死if color == red and shape == circle then apple。遇到青苹果或咬了一口的苹果就识别失败。
大模型模式（端到端学习）：
- 做法：利用预训练的视觉 - 语言大模型（VLM），直接从传感器信号（像素）映射到高维语义空间。
- 优势：具备零样本（Zero-shot）泛化能力。它没见过这个特定的杯子，但它知道“杯子”的概念（有把手、能盛水、易碎）。它能理解场景的上下文（“杯子在桌子边缘，可能会掉”）。
- 核心变化：不再需要人工定义“什么是杯子”的标准和规则，大模型从海量数据中自己学会了世界的常识。

传统模式（规则/固化算法）：
- 做法：使用有限状态机（FSM）或行为树（Behavior Tree）。工程师必须穷举所有可能的情况：if 障碍物在左 -> 右转，if 电量<20% -> 回充。
- 局限：无法处理长序列任务和未知突发状况。一旦遇到预设逻辑之外的情况（比如路被堵死了，需要搬开椅子），机器人就会“死机”或报错。它没有因果推理能力。
- 例子：指令“去厨房拿水”。如果厨房门开着，它能去；如果门关着，传统程序可能直接报错“路径不可达”，因为它不知道“开门”这个前置动作。
大模型模式（推理引擎）：
- 做法：大模型作为大脑，利用其内嵌的世界知识进行思维链（Chain of Thought）推理。
- 优势：具备任务分解和异常处理能力。面对“门关了”，它能自动推理出：“要拿水 -> 需进厨房 -> 门关了 -> 需要先执行‘开门’动作 -> 找到门把手 -> 抓取 -> 旋转”。
- 核心变化：从“执行预设脚本”变成了“现场解题”。大模型能处理开放世界中的无限可能性。

传统模式（规则/固化算法）：
- 做法：基于数学模型的控制器（如PID、MPC）。需要精确的机器人动力学模型和环境模型。
- 局限：对模型误差极其敏感（Sim-to-Real Gap）。如果地面摩擦力变了、负载重量变了，原本调好的参数可能让机器人摔倒。且难以处理复杂的非结构化操作（如叠衣服、插电线）。
- 例子：机械臂抓取位置必须精确到毫米，否则就抓空。
大模型模式（策略学习/VLA）：
- 做法：视觉 - 语言 - 动作模型（VLA, Vision-Language-Action）。大模型直接输出动作令牌（Action Tokens）或关节扭矩，基于海量机器人操作数据的模仿学习。
- 优势：具备柔顺性和适应性。它不依赖完美的物理公式，而是依赖“经验”（数据）。它像人一样，凭感觉调整力度和角度。
- 核心变化：从“计算最优解”变成了“直觉反应”。大模型学会了手眼协调的通用策略，能迁移到未见过的物体上。

本质上是将机器人的智能来源从“工程师写代码”转移到了“现实数据的训练”。

表格