当前位置: 首页 > news >正文

$\pi$系列 - kirin

第一步:架构解构与横向对比 (Architecture Dissection)

Physical Intelligence 的核心技术路线是以预训练视觉语言模型(VLM)为骨架,通过引入“动作专家”(Action Expert)和流匹配(Flow Matching)技术,实现高频、连续的动作控制。

横向对比表格

论文名称 最主要创新点 模型架构 训练 Pipeline 关键技术 RL 的使用 与前作/同类的提升
\(\pi_0\) 首个将 VLM 与流匹配结合的具身基础模型 PaliGemma 骨干 + 动作专家(Action Expert) 大规模跨具身预训练 + 任务特定后训练 流匹配(Flow Matching)、动作分块(Action Chunking) 主要为离线模仿学习,无显式 RL 解决了自回归 VLA 在高频、灵巧任务上的局限
FAST 基于时间序列压缩的动作令牌化(Tokenization) 基于自回归变换器(Transformer) 将连续动作压缩为离散 Token 进行预训练 离散余弦变换(DCT)压缩动作轨迹 无显式 RL 训练速度提升 5 倍,且在灵巧任务上匹配流匹配性能
\(\pi_{0.5}\) 异构数据联合训练(Co-training)实现跨场景泛化 统一架构处理视觉、语言及离散/连续动作 结合 Web 数据、多机器人数据及高层语义预测 高层子任务预测(Subtask Prediction) 引入子任务预测,类似于 RL 中的分层思想 首次在完全陌生的家庭环境中实现长程灵巧操作
Hi Robot 分层 VLA 架构处理复杂、开放指令 系统 1(低层 \(\pi_0\))与系统 2(高层 VLM)分层推理 使用合成数据标注复杂指令和人机互动 合成数据生成(Synthetic Data Generation) 无显式 RL 能够理解“不要放西红柿”等复杂约束并进行实时纠错
RTC 实时分块(Real-Time Chunking)解决推理延迟 基于流匹配的异步执行架构 训练流匹配策略以支持在线引导补全 指导性补全(Guidance-based Inpainting) 引入价值函数引导(Value Guidance)进行推理增强 在高动态、高延迟环境下性能远超同步推理
\(\pi_{0.5}\) KI 知识绝缘(Knowledge Insulation)保护 VLM 背景知识 引入停止梯度(Stop-gradient)的混合专家架构 离散/连续动作联合训练 + 梯度流控制 梯度绝缘技术、混合损失函数(Co-loss) 无显式 RL 防止了新参数训练对 VLM 预训练知识的破坏,提升语言遵循能力
\(\pi^*_{0.6}\) (RECAP) 通过 RECAP 算法实现具身 VLA 的自我进化 优势条件策略(Advantage-conditioned VLA) 离线 RL 预训练 + 在线迭代(收集中间干预数据) 价值函数训练、优势阈值选择 核心创新点:使用优势加权进行强化学习迭代 使任务吞吐量翻倍,失败率减半,实现自我改进

第二步:RL 与具身智能的融合 (RL and Embodied Intelligence)

结合 Physical Intelligence 的最新进展 \(\pi^*_{0.6}\) (RECAP) 和 RTC,具身智能与 RL 的融合正在向微观层面深入:

  1. 优势引导的策略提取(Advantage-Conditioned Extraction):

    • RECAP 论文提出训练一个语言条件的分布式价值函数(Value Function),用于评估当前动作对任务成功的“优势”。
    • 通过在策略输入中加入“优势指示符”(Advantage Indicator \(I_t\)),模型在推理时可以被显式地要求生成“高优势”的动作。这种做法比传统的 PPO 更适合大规模 VLA,因为它能利用所有离线和在线数据,而不需要复杂的在线策略更新。
  2. 引导补全与实时纠错(Inpainting Guidance):

    • RTC 论文提出利用价值函数作为“引导力”(Guidance),在流匹配的去噪过程中不断修正动作分块。
    • 这种微观层面的融合允许机器人在动作执行的中途,根据价值函数的反馈实时调整轨迹,而不需要等待下一个完整的推理周期。
  3. 分层强化学习与子任务对齐:

    • \(\pi_{0.5}\) 和 Hi Robot 中,高层策略预测子任务指令。未来的创新可以引入 RL 中的“内部奖励”(Intrinsic Reward),当低层 \(\pi_0\) 策略成功完成高层指定的子任务时给予奖励,从而实现端到端的层次化优化。

第三步:工程实现中的挑战 (Engineering Reality Check)

  1. 计算开销与推理延迟:

    • 引入 RL 尤其是在线价值引导(RTC)时,由于需要在流匹配的每个集成步骤计算梯度,计算成本会显著增加。
    • 虽然 \(\pi_0\) 系列通过“动作专家”将灵巧控制频率提升至 10Hz-50Hz,但在复杂的 System 2 推理下,维持这种实时性极具挑战。
  2. 数据效率与探索难题:

    • 真实世界的 RL 极度依赖高质量的负面反馈和纠错数据。RECAP 依赖于人类专家的干预(Interventions)来提供高质量的修正样本。如何在没有人类持续监督的情况下,利用世界模型(World Model)生成真实的合成失败案例进行自主探索,是迈向 AGI 的关键障碍。
  3. 奖励函数的设计(Reward Design):

    • 对于长程任务(如打扫厨房),稀疏奖励(Sparse Reward)难以引导学习。\(\pi_{0.5}\) 尝试通过子任务标注来提供“伪奖励”,但这种人工标注难以规模化。

Hi Robot

$\pi_{0.6}^{*}$1

$\pi_{0.6}^{*}$2

http://www.jsqmd.com/news/402950/

相关文章:

  • Windows环境下Docker部署CosyVoice语音引擎的实践与避坑指南
  • CiteSpace关键词聚类分析实战:从数据预处理到可视化解读
  • 如何选择可靠维修点?2026年上海天梭手表维修推荐与评测,直击非官方服务痛点 - 十大品牌推荐
  • 一文讲透|10个AI论文写作软件:专科生毕业论文+科研写作全攻略
  • 利用TimeGAN技术对一维时序数据进行扩增(Python代码)
  • 基于coqui stt wasm版本的语音识别效率优化实战
  • 干货来了:专科生专属AI论文神器 —— 千笔AI
  • 半导体售卖平台智能客服架构优化实战:从高延迟到毫秒级响应
  • ChatTTS试用指南:从技术原理到生产环境部署的最佳实践
  • 建议收藏|9个降AI率平台深度测评,自考降AI率必备工具推荐
  • LangGraph实战:从零搭建高可用智能客服系统的架构设计与避坑指南
  • 基于火山引擎的Chatbox实战:构建高并发智能对话系统的架构设计与优化
  • Python DeepSeek RAG智能客服实战:从零构建高效问答系统
  • Hadoop毕设避坑指南:从零搭建分布式计算环境的技术实践
  • Chinese CLIP模型微调实战:从数据准备到性能优化的全流程指南
  • 计算机类毕设效率提升实战:从选题到部署的工程化加速方案
  • 手表维修中心哪家强?2026年上海路易威登手表维修推荐与排名,规避非官方网点风险 - 十大品牌推荐
  • 初来乍到!
  • 手表维修如何避坑?2026年上海蕾蒙威手表维修推荐与评测,聚焦服务与网点痛点 - 十大品牌推荐
  • 电商智能客服架构设计与实战:从对话管理到意图识别
  • 医保智能客服Dify架构解析:如何实现高并发场景下的精准语义理解
  • ChatGPT Atlas 浏览器下载效率优化实战:从原理到最佳实践
  • 2026年上海劳力士手表维修推荐:甄选非官方服务网点排名,解决售后时效与网点覆盖痛点 - 十大品牌推荐
  • 基于ChatTTS的AI辅助开发实战:从语音合成到高效集成
  • ComfyUI与ChatTTS集成实战:构建高效语音交互系统的技术解析
  • 深入理解指针:常量、函数与数组
  • ChatTTS安装效率优化指南:从依赖管理到生产环境部署
  • Chatbot 扣子开发实战:从零搭建高可用对话系统的避坑指南
  • Chatbox调用火山引擎实战指南:从接入到性能优化全解析
  • 智能客服项目GitHub实战:从架构设计到生产环境部署的完整指南