当前位置：首页 > news >正文

VLA架构细节分析

news 2026/7/15 6:16:14

下面我给你一份工程级、可落地的 VLA（Vision–Language–Action）架构细节分析。
不是“概念介绍”，而是拆到模块职责、数据流、失败模式、以及为什么它会成为具身智能的主流范式。

一、VLA 是什么（一句话工程定义）

VLA 是一种把“看见（Vision）—理解（Language）—行动（Action）”统一到同一个决策闭环中的系统架构，而不是三个模型的简单拼接。

它解决的不是“会不会做动作”，而是：

在开放世界中，如何把高层意图稳定地转化为可执行、可回退、可解释的行为。

二、VLA 的整体系统结构（工程视角）

┌──────────────┐ │ Vision │ 感知世界状态 │ (Perception) │ └──────┬───────┘ │ 结构化世界表示 ┌──────▼───────┐ │ World │ 世界模型 / 状态抽象 │ Model │ └──────┬───────┘ │ 语义 + 状态 ┌──────▼───────┐ │ Language │ 意图理解 / 任务分解 │ Reasoning │ └──────┬───────┘ │ 行为计划 ┌──────▼───────┐ │ Action │ 技能选择 / 控制执行 │ (Policy) │ └──────────────┘

关键点：
VLA 的核心不是 Vision，也不是 LLM，而是中间那层“世界模型 + 行为抽象”。

三、Vision：不是“看清楚”，而是“为行动服务”

1️⃣ Vision 在 VLA 中的角色变化

传统感知	VLA 感知
识别物体	表达可行动性
输出 bbox / mask	输出 affordance
单帧	时序一致性
精度优先	不确定性优先

2️⃣ 关键输出不是图像，而是：

可抓取区域
可通行区域
接触风险
物体状态（开/关/空/满）

📌工程结论

VLA 中的 Vision 是“Action-aware perception”，不是 CV benchmark 模型。

四、World Model：VLA 的真正中枢（最容易被低估）

1️⃣ 世界模型负责什么

当前世界状态（objects, relations）
自身状态（pose, capability）
行为后果预测（if I do X → Y）

2️⃣ 世界模型的工程形态

不是一个“巨大模型”，而是：

结构化状态图（Scene Graph）
行为前后状态差分
不确定性标注

Cup: location: table state: empty graspable: true risk: low

📌没有世界模型的 VLA，只是“多模态拼接”

五、Language：不是聊天，而是“任务编译器”

1️⃣ LLM 在 VLA 中的真实职责

错误理解	正确定位
LLM 直接控制机器人	LLM 生成行为计划
LLM 决定动作	LLM 决定“做什么”
LLM 是大脑	LLM 是“规划器”

2️⃣ 典型流程

User: 把桌子收拾干净 ↓ LLM: - 找到桌子上的物体 - 判断哪些是垃圾 - 逐个清理

输出不是动作，而是行为序列 / 子任务 DAG。

📌LLM 是“意图 → 行为”的编译器，不是执行器

六、Action：技能库 + 低层控制（稳定性的关键）

1️⃣ Action 层的真实结构

Action Layer = Skill Selector + Skill Library + Low-level Controller

2️⃣ Skill 的定义

抓取
放置
推
打开
移动

每个 Skill 都是：

可验证
可失败
可回退

📌VLA 成败的关键在 Skill 是否工程化，而不是模型多大

七、VLA 的闭环运行机制（非常重要）

感知 → 世界模型 → 语言规划 → 行为执行 ↑ ↓ └────────── 状态更新 ───────────────┘

关键特性

每一步都可中断
每一步都可回滚
每一步都有失败语义

这使得 VLA天然适合长期运行系统。

八、VLA vs 传统机器人架构（本质差异）

维度	传统架构	VLA
决策层	FSM / BT	语言规划
感知	几何	可行动性
行为	硬编码	技能组合
泛化	场景依赖	任务泛化
失败处理	异常	行为级

九、VLA 当前的工程瓶颈（真实问题）

❗ 世界模型不稳定
❗ Skill 覆盖率不足
❗ LLM 幻觉与现实不一致
❗ 行为执行失败的恢复策略
❗ 实时性与算力成本

VLA 不是“已经解决的问题”，而是“正确方向上的未完成系统”。

十、一句话总结

VLA 不是一个模型，而是一种“把语言变成可执行行为”的系统架构范式。

查看全文

http://www.jsqmd.com/news/252790/

在 JDK 8 中，JVM 参数主要分为三类：标准参数（-X 和 -XX）、系统属性参数（-D）以及用于垃圾回收（GC）和性能调优的参数。以下是一些常用的 JVM 参数及其作用

如何判断你的设备是否是 A/B 升级？

资产管理系统建设方案和实现源码（Java源码）

学霸同款8个AI论文写作软件，助你搞定本科生毕业论文！

Java 注解深度指南：从 @Retention 到自定义注解处理器的全流程开发

大眼视频 / 中药百科 / 广场舞：这三款工具太懂需求

福昕 PDF 隐藏技巧：擦除敏感信息超实用

YOLOv11+多尺度卷积注意力机制（MSCA）：小目标检测性能优化实战指南

基于多尺度空洞注意力机制的YOLOv11模型优化与视觉识别性能提升

货运汽车超速检测与报警系统设计（有完整资料）

django基于python的牧场管理系统的设计与实现

智能储物柜控制系统（有完整资料）

零基础如何花最少的时间入门网络安全，零基础入门到精通，看这一篇就够了！

2026年网络安全七大趋势

送给正在尝试踏入网络安全行业的小白，网络安全零基础入门到精通教程建议收藏！

云服务器的按量付费 vs 包年包月：什么场景下哪种更划算？新手如何选？

2026年网络安全工作避坑指南（非常详细）零基础入门到精通，收藏这篇就够了

【实战落地】拒绝“机翻感”：跨境电商如何利用AI批量打造高转化率的多语言商品详情页？

就业前景好的网络空间安全专业，从零基础入门到精通，收藏这一篇就够了！

2026年网络安全行业值得加入吗？从案例到入门全解析

星舍与说唱新势力达成合作：共同启动“流行新势力”赛事及艺人成长计划

ACPI!ACPITableLoad函数中的ACPI!ACPIBuildRunMethodRequest到Do we need to run the DPC

亲测好用自考必备9个AI论文网站测评TOP9

智能AI创作短剧系统源码，多模态素材智能集成与编辑

【tensorRT从零起步高性能部署】12-CUDA运行时API-使用cuda核函数加速yolov5后处理

好写作AI｜文献综述别硬扛！你的“学术缝合术”该升级了

工业场景高效目标检测系统：基于BiFPN与注意力机制的YOLOv11架构优化研究

好写作AI｜别让论文结构像迷宫！你的学术“GPS”已上线

YOLOv11实战指南：从模型加载到性能优化的全流程精讲

YOLOv11+多尺度扩张注意力（MSDA）：长距离特征捕获能力提升40%的实战教程