当前位置: 首页 > news >正文

[具身智能-60]:具身智能的核心是让大模型替代传统的预设的规则和固化的算法,从传感器检测到的信号中提取有意义的信息、让大模型进行规划和决策,让大模型进行路径的规划,并指挥执行机构完成相应的动作控制。

用大模型替代传统规则和固化算法”是这一轮技术革命的核心分水岭。

我们可以将你描述的这个过程拆解为三个维度的范式转移(Paradigm Shift)

来深入理解为什么大模型能带来这种颠覆:

1. 感知维度:从“特征工程”到“语义理解”

  • 传统模式(规则/固化算法)
    • 做法:工程师手动设计算法(如边缘检测、颜色阈值、模板匹配)。
    • 局限:只能识别“训练过”或“写死”的物体如果光线变了、物体换个角度、或者出现了一个没见过的杯子,算法就失效了(鲁棒性差)。它提取的是几何特征,不懂语义
    • 例子:代码写死if color == red and shape == circle then apple。遇到青苹果或咬了一口的苹果就识别失败。
  • 大模型模式(端到端学习)
    • 做法:利用预训练的视觉 - 语言大模型(VLM),直接从传感器信号(像素)映射到高维语义空间
    • 优势:具备零样本(Zero-shot)泛化能力。它没见过这个特定的杯子,但它知道“杯子”的概念(有把手、能盛水、易碎)。它能理解场景的上下文(“杯子在桌子边缘,可能会掉”)。
    • 核心变化不再需要人工定义“什么是杯子”的标准和规则大模型从海量数据中自己学会了世界的常识。

2. 决策与规划维度:从“状态机”“推理引擎”

  • 传统模式(规则/固化算法)
    • 做法:使用有限状态机(FSM)或行为树(Behavior Tree)。工程师必须穷举所有可能的情况:if 障碍物在左 -> 右转if 电量<20% -> 回充
    • 局限:无法处理长序列任务未知突发状况。一旦遇到预设逻辑之外的情况(比如路被堵死了,需要搬开椅子),机器人就会“死机”或报错。它没有因果推理能力。
    • 例子:指令“去厨房拿水”。如果厨房门开着,它能去;如果门关着,传统程序可能直接报错“路径不可达”,因为它不知道“开门”这个前置动作。
  • 大模型模式(推理引擎)
    • 做法:大模型作为大脑,利用其内嵌的世界知识进行思维链(Chain of Thought)推理
    • 优势:具备任务分解异常处理能力。面对“门关了”,它能自动推理出:“要拿水 -> 需进厨房 -> 门关了 -> 需要先执行‘开门’动作 -> 找到门把手 -> 抓取 -> 旋转”。
    • 核心变化:从“执行预设脚本”变成了“现场解题”。大模型能处理开放世界中的无限可能性。

3. 控制维度:从“精确计算”到“策略模仿”

  • 传统模式(规则/固化算法)
    • 做法基于数学模型的控制器(如PID、MPC)。需要精确的机器人动力学模型和环境模型。
    • 局限:对模型误差极其敏感(Sim-to-Real Gap)。如果地面摩擦力变了、负载重量变了,原本调好的参数可能让机器人摔倒。且难以处理复杂的非结构化操作(如叠衣服、插电线)。
    • 例子:机械臂抓取位置必须精确到毫米,否则就抓空。
  • 大模型模式(策略学习/VLA)
    • 做法视觉 - 语言 - 动作模型(VLA, Vision-Language-Action)。大模型直接输出动作令牌(Action Tokens)或关节扭矩,基于海量机器人操作数据的模仿学习
    • 优势:具备柔顺性适应性。它不依赖完美的物理公式,而是依赖“经验”(数据)。它像人一样,凭感觉调整力度和角度
    • 核心变化:从“计算最优解”变成了“直觉反应”。大模型学会了手眼协调的通用策略,能迁移到未见过的物体上。

总结:这场变革的本质

本质上是将机器人的智能来源从“工程师写代码”转移到了“现实数据的训练

表格

维度传统机器人 (规则驱动)具身智能机器人 (大模型驱动)
智能来源工程师的硬编码 (Hard-coded)大数据的预训练 (Pre-trained)
环境假设结构化、已知、静态非结构化、开放、动态
处理能力擅长重复、高精度任务擅长泛化、推理、复杂交互任务
扩展性加一个新功能需重写代码加一个新概念只需微调或提示 (Prompt)
核心瓶颈算法规则的覆盖率数据的质量与规模、算力成本

需要注意的“混合架构”现实

虽然大模型是核心,但在目前的实际落地中(如特斯拉Optimus、Figure 01),通常采用“大小脑协同”的混合架构,而不是完全抛弃传统算法:

  1. 大模型(大脑):负责你提到的感知理解、任务规划、宏观决策。它慢(几百毫秒延迟),但聪明,懂常识。
  2. 传统算法/小模型(小脑/脊髓:负责底层的平衡控制、高频伺服响应、安全保护。它快(微秒级延迟),虽不懂语义,但能保证机器人不摔倒、不撞坏

结论:具身智能的终极目标,就是让具有极强泛化能力大模型成为机器人的通用操作系统,让它像人类一样,通过看(感知)、想(规划)、做(控制)适应这个复杂多变的世界,而不再是一个只能执行固定程序的自动化机器。

http://www.jsqmd.com/news/507710/

相关文章:

  • 计算机毕业设计之基于Spring Boot 悦己美容院后台管理系统的设计与实现
  • ALV字段‘QUAN’小数位智能显示优化:全零隐藏与非全零保留的实战技巧
  • 保姆级教程:用聆思CSK6开发板把‘小美小美’换成你自己的专属唤醒词
  • 星穹铁道革新性自动化工具:三月七小助手技术解析与应用指南
  • Transformer模型探秘03-QKV矩阵在Self-Attention中的核心作用
  • 前端跨域全解析:核心原理、解决方案选型与实战指南
  • RocksDB, SQLite, TDengine Edge, LiteDB与sfsDb选型
  • 5款主流EDA仿真软件实战对比:Sigrity/HFSS/Siwave/Hyperlynx/ADS到底怎么选?
  • 拆解50kW光伏逆变器的硬件代码实战
  • 【人工智能】中国大模型“六小虎”:百模大战突围者,引领国产AI商业化新征程
  • 2026国内免拆模板保温一体板供应商怎么挑?看专业评测,服务好的保温结构一体板厂商精选实力品牌分析发布 - 品牌推荐师
  • 【iOS】Effective Objective-C第三章
  • Redis Windows版避坑指南:7.2.4版本这些配置项千万别漏(实测有效)
  • c++ linux环境编程——进程的终止 The termination of a process
  • Qt+onnxruntime实战:手把手教你部署MaskRCNN模型(附动态尺寸处理技巧)
  • 2026年智慧公厕怎么选?从除臭到管控,五家务实服务商盘点 - 深度智识库
  • B站学软件测试?这7个宝藏UP主带你从入门到精通(附课程链接)
  • 机器视觉零基础入门:(三)图像上采样实战:从原理到代码的像素填充艺术
  • 使用DBeaver连接RisingWave数据库
  • Kubernetes 1.28 集群架构深度解析(kubeadm 部署全景指南)
  • K8s实战:利用Ingress-nginx实现多域名服务暴露与流量管理
  • Nanbeige 4.1-3B部署教程:解决st.markdown(unsafe_allow_html=True)样式冲突
  • YOLO X Layout应用案例:合同、报告、论文文档智能解析实战
  • 告别‘从入门到放弃’:ESP32+MicroPython项目实战,用OLED做个物联网温湿度计
  • 别再乱试了!Jetson Orin (Ubuntu 20.04) SSH无法连接的终极检查清单
  • 异步截屏技术:原理、实现与最佳实践
  • SCMA稀疏码多址技术:从原理到5G应用实践
  • java.net.UnknownHostException 问题解决
  • 2026年降ai保姆级教程:分享5个亲测好用的降ai率工具和2个手动修改技巧,一文搞定ai率 - 殷念写论文
  • 2026年宜昌短视频运营价格内幕:企业如何控制获客成本提升效果 - 精选优质企业推荐榜