当前位置: 首页 > news >正文

[具身智能-454]:具身智能端到端的模型训练中输入数据的格式和输出数据的格式

具身智能(Embodied AI)的端到端模型,通常指的是视觉-语言-动作(VLA)模型。这类模型的核心逻辑是直接从传感器的原始输入映射到机器人的动作输出,中间不再依赖传统的运动学解算或规则代码。

基于目前主流的架构(如OpenVLA、RT-2、LeRobot ACT等),为你梳理了输入和输出数据的具体格式和形态。

📥 输入数据格式:多模态的“感官”融合

端到端模型的输入通常是多模态的,主要包含视觉、语言指令和本体感知(Proprioception)三大部分。

1. 视觉数据

这是模型“看”世界的方式。

  • 格式:通常是RGB图像(有时包含深度图Depth)。
  • 形态
    • 原始像素:例如640x480224x224的三维张量[C, H, W]
    • 多视角:可能包含“全局相机”(看环境)和“腕部相机”(看手部操作)。
    • 预处理:在送入模型前,图像通常会被切块(Patch)并转化为高维特征向量(Embedding)。
2. 语言指令

这是模型“理解”任务的方式。

  • 格式自然语言文本。
  • 形态
    • 文本:例如“请把桌上的红杯子拿给我”。
    • 编码:经过分词器(Tokenizer)处理后,转化为文本嵌入(Text Embedding),例如使用T5或BERT模型生成的768维或512维向量。
3. 本体感知

这是模型“感觉”自身状态的方式。

  • 格式:低维数值向量。
  • 形态
    • 关节状态机械臂各个关节的角度(Position)、角速度(Velocity)或力矩(Effort)
    • 末端执行器:夹爪的开合程度、末端的笛卡尔坐标(x, y, z)及旋转角度(Roll, Pitch, Yaw)。
    • 统一化:为了兼容不同机器人,这些数据常被映射到一个统一的向量空间中(如128维的本体感知向量)。

📤 输出数据格式:动作的“预测”

模型的输出直接决定了机器人的行为,根据任务类型不同,输出格式主要分为以下两种流派:

1. 离散化的动作令牌

这是目前大模型(如OpenVLA、RT-2)最流行的格式,将动作视为一种“语言”来生成。

  • 原理:将连续的机器人动作空间离散化(分桶),每个具体的动作值对应一个Token ID
  • 格式:一系列Token ID序列。
  • 内容
    • 末端位姿x, y, z 的位移量,以及旋转角度。
    • 夹爪状态:开或关(0或1)。
    • 示例:模型输出 ``,解码后代表“x轴移动+1cm,y轴-0.5cm...夹爪闭合”。
2. 连续的动作块

这是控制类模型(如ACT、Diffusion Policy)常用的格式,强调动作的平滑性和时序性。

  • 原理:模型一次性预测未来一段时间(Chunk)内的所有动作序列,而不是单步动作。
  • 格式:浮点数张量(Tensor)。
  • 内容
    • 形状[预测步数, 动作维度]。例如预测未来64步,每步7个维度(6轴+夹爪),输出就是一个64x7的矩阵。
    • 优势:这种格式能保证动作的连贯性,避免机器人抖动。

📊 数据流向总结表

为了让你更直观地理解,我整理了以下数据流向表:

数据流向数据类型典型格式/规格作用
输入视觉RGB图像 (如 224x224x3)提供环境感知信息
语言文本嵌入 (如 512维向量)提供任务目标指令
本体感知关节角度/位姿 (如 128维向量)提供机器人当前状态
输出动作令牌离散Token IDs适用于大语言模型架构,将动作视为语言生成
动作块连续数值矩阵 (如 64x7)适用于控制策略,输出未来一段平滑轨迹

💡 关键补充:数据是如何组织的?

在实际训练(如使用LeRobot或OpenX-Embodiment数据集)中,这些输入输出数据通常被打包成轨迹(Trajectory)回合(Episode)

  • 文件结构:通常存储在HDF5、Parquet或TFRecord文件中。
  • 时序对齐:每一帧数据都包含时间戳,确保图像、指令和动作在时间上是严格同步的(例如误差控制在±10ms以内)。
  • 元数据:包含任务描述、成功/失败标签等,用于指导模型学习。

简单来说,具身智能的训练就是把“看到了什么(图)+ 听到了什么(文)+ 现在在哪(状态)”,映射为“接下来该做什么(动作)”的过程。

http://www.jsqmd.com/news/702479/

相关文章:

  • Driver Store Explorer:3步彻底清理Windows驱动垃圾,轻松释放数GB磁盘空间
  • 基于MCP协议的AI Agent任务管理器:设计与实战指南
  • 终极图形化方案:3分钟搞定Electron asar文件管理,告别复杂命令行
  • SAP ABAP表控件(Table Control)从入门到精通:手工搭建 vs 向导生成,到底怎么选?
  • MinerU 2.5-1.2B新手入门:从零部署到成功提取PDF,保姆级全流程
  • 三步智能守护:如何用QZoneExport永久珍藏你的QQ空间青春记忆
  • BetterNCM Installer终极指南:3分钟搞定网易云插件安装
  • R语言机器学习实战:从工具链到生产优化
  • Keras实战:从零构建AC-GAN实现可控图像生成
  • 5个技巧彻底解决Mac多设备滚动方向混乱:Scroll Reverser深度配置指南
  • AppAgent:基于多模态大模型的视觉驱动移动端自动化实践
  • GTE-Base-ZH与Git结合:智能化代码仓库文档检索与分析
  • Qwen3.5-4B-Claude-Opus Web镜像教程:跨域配置与前端集成方案
  • qmc-decoder终极指南:3分钟解锁QQ音乐加密文件,实现音频自由转换
  • Ralphy:AI编码循环引擎,自动化任务调度与并行执行
  • 终极RimWorld模组管理解决方案:3步告别模组冲突,轻松管理数百模组
  • 三步解决老旧Android电视直播难题:MyTV-Android原生应用完整指南
  • 联发科设备救砖终极指南:MTKClient解锁底层修复的3大核心场景
  • 基于AI Agent的自主HR聊天机器人:架构设计与工程实践
  • [具身智能-455]:AI的大规模应用从“三驾马车”(数据、算法、算力)到“六维驱动”(数据、算法、算力;资本、应用、人才)
  • SecGPT-14B多场景兼容:可对接Splunk/Elasticsearch/Zeek日志源
  • Redis 集群故障自动恢复机制
  • 5分钟快速上手:绝地求生罗技鼠标宏终极配置指南
  • 计算机网络期末考试之TCP的拥塞控制:从原理到实战的深度解析
  • Qwen3.5-2B快速部署:单命令启动WebUI+自动绑定7860端口脚本编写
  • Excalidraw开源白板:如何用5个步骤打造专业级手绘图表协作体验
  • iOS 开发进阶之路:从能跑到能维护
  • 01 Git基础教程
  • 基于MCP协议实现AI自然语言查询PostgreSQL数据库的实践指南
  • 5分钟掌握视频字幕提取:Video-subtitle-extractor终极使用指南