当前位置: 首页 > news >正文

浙大 × 西湖大学最新:超越π0.5,融合人类数据与世界模型的高效VLA训练框架

将预测未来动态的世界建模能力和具身策略模型 (VLA) 相结合对提升机器人推理能力和泛化能力至关重要。然而,当前的方法面临两个主要问题:1. 训练目标迫使模型过度关注像素级重建,这限制了语义学习和泛化能力;2. 在推理过程中依赖预测的未来观察结果,往往会导致误差积累。为了解决这些挑战,本文提出了通过并行渐进扩展实现的未来表示对齐 (FRAPPE) 方法。在 RoboTwin 基准测试和实际任务中的实验表明,经过 FRAPPE 训练后的策略在性能上超越了RDT-1B, π0.5等先进模型,并在长时程和未见过的场景中表现出强大的泛化能力。

  • 论文题目:FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment
  • 论文链接:https://arxiv.org/abs/2602.17259
  • 项目主页:https://h-zhao1997.github.io/frappe/
  • 论文时间:Feb, 20, 2025
  • 作者单位:浙江大学,西湖大学,香港科技大学(广州),华南理工大学,上海科技大学,清华大学

原文链接:浙大 × 西湖大学最新:超越π0.5,融合人类数据与世界模型的高效VLA训练框架

🛠️ 方法概述

FRAPPE的设计哲学是通过渐进式扩展来提升模型的世界建模能力和参数,方案聚焦于训练机制和模型结构两个层面对已有的基础模型进行后训练优化:

1. 训练机制:隐式世界建模(Implicit World Modeling)

模型不采取显式生成未来观测的像素这一显式建模,而是通过对未来观测在隐空间的表征进行对齐,使模型能够在统一的语义空间中理解动作与视觉信息,提升跨任务泛化能力。

2. 模型结构:并行扩展(Parallel Scaling)

FRAPPE 将具有单一推理流的VLA模型进行扩展,通过复制多个输入进行并行的前向计算,每个流对齐一个独立的视觉编码器(实验中采取的并行度为3,分别对齐DINOv2,CLIP和ViT的表征),同时学习多个教师表征,避免模型学习单一的归纳偏置。

🧩 训练方案

具体实践中,FRAPPE 采取渐进式扩展训练:

  • Mid-Training阶段,模型进行全参数微调并和单一的视觉编码器 Theia 进行对齐,这一步保证了预训练模型可以适应世界建模训练的训练范式;

  • Post-Training阶段引入并行扩展机制,通过多个prefix和LoRA模块将模型转换为混合专家架构并进行多教师特征对齐的并行训练。

🧪 实验验证

1. 仿真结果

在RoboTwin Benchmark的8个子任务中,FRAPPE 在平均成功率上超越了采用naive fine-tuning的VLA base model(RDT-1B、π0、π0.5)、小模型基线 (DP) 以及基于预测表征的生成式基线 (VPP)。

在更小参数模型的仿真实验中,RDT-130M使用 FRAPPE 进行后训练,在RoboTwin上的性能可以与RDT-1B持平,展现出了该方案在小参数模型中仍然适用,并对性能和泛化性有显著提升。

2. 真机实验

在真机实验中,FRAPPE 的性能在四个基本的双臂操作任务上超过了 RDT-1B 和 π0.5,并且在未见的复杂场景下展示出了更优越的泛化性。

在包含三个子任务的长程任务中,在最终成功率上 FRAPPE 和 π0.5 表现相当。作为对比,RDT-1B 则无法成功按顺序完成三个子任务。

3. 人类数据协同训练

与其他工作类似,没有动作标签的人类视频也可以增益训练世界模型的训练过程。本文在大规模的人类视频擦操作数据集 (Ego (Web)) 和人类执行相同下游任务的数据 (Ego (Task)) 两种数据源上都进行了实验。实验表明两种数据都能够提升下游任务的成功率,可以极大的减少遥操作数据的采集规模,降低数据成本。

⚡️ 计算效率

尽管在推理中由于并行扩展架构引入了额外的参数和计算量,模型仍然可以保持和RDT-1B相近的推理延迟以及可接受的显存占用。

✅ 总结与展望

FRAPPE提出了一种面向VLA模型的高效微调新范式:
通过表征对齐与多源数据顺滑融合,在可接受的推理开销的前提下,显著提升模型的泛化能力、长时序能力与隐式世界建模能力。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

http://www.jsqmd.com/news/417886/

相关文章:

  • 本科留学秘籍大公开!留学中介助力名校梦 - 博客湾
  • 2026年四川省机房建设厂家推荐榜 西南数基建设实力企业甄选(附评分) - 深度智识库
  • 2026 靠谱知识库部署厂商盘点:企业级服务商、AI 方案商、本地化部署商一应俱全 - 品牌2025
  • 联想全新服务打造永不停机的基础设施:由主动式 AI 驱动支持赋能的服务器 Premier Support Plus 服务
  • 圆梦海本科: 靠谱留学中介实力护航,冲刺顶尖本科 - 博客湾
  • 2026年徐州压路机/装载机/清扫机防撞系统/夜间施工照明灯/LED信息看板厂家综合评测报告 - 2026年企业推荐榜
  • 2026市场靠谱冰火板公司哪家好?优质之选在这里,玻纤板/冰火板/A级抗倍特/石英纤维板/树脂板,冰火板供应商怎么选择 - 品牌推荐师
  • 广西地产集团 | 破资产信息混乱,稳保收益不流失 - 搭贝
  • 2026磁轴键盘品牌排名前10名出炉!迈从Ace 68 Turbo成关注焦点 - 速递信息
  • GEO优化服务公司来了 这个AI风口快快抓住 - 品牌推荐大师1
  • 【211高校-湖南师范大学主办 | ACM出版,EI检索快速稳定 | IEEE Fellow加持 | 可持续、计算机主题EI会议征稿】2026年计算机技术与可持续发展国际学术会议(CTSD 2026)
  • 写论文省心了 9个AI论文工具测评:本科生毕业论文+科研写作必备神器
  • 2026年2月徐州称重给料机、电子皮带秤、称重给煤机厂家综合测评 - 2026年企业推荐榜
  • 留学申请更省心:TOP10 本科留学中介靠谱甄选 - 博客湾
  • ABB称重传感器PFTL201DE-100.0
  • 基于MATLAB的语音信号时域特征提取实现
  • mongodb linux连接,查询数据真实情况,数据记录数及排查mongodb日志关键字
  • 2026年 东莞/广东腊味手信推荐榜:老字号广式腊肠与地标美食口碑深度解析,大湾区港澳伴手礼精选 - 品牌企业推荐师(官方)
  • 别再瞎找了!10个一键生成论文工具测评:本科生毕业论文+开题报告写作全攻略
  • 2026 年企业智能建设实力服务商:Deepseek 知识库部署、企业知识库、BI 本地私有化部署方案推荐 - 品牌2025
  • 2026年2月徐州称重给料机、电子皮带秤、称重给煤机厂家哪家好 - 2026年企业推荐榜
  • 2026电竞键盘推荐首选|迈从Ace 68 Turbo实现0.06ms赛事级延迟,性能出众 - 速递信息
  • 2026宁波财税公司TOP5推荐|工商注册+代理记账专属靠谱榜单 - 品牌智鉴榜
  • APUE笔记:Signals(十) - Invinc
  • Qt 连接 MySql 数据库
  • 新博客文章 - 法Q
  • 基于MATLAB的PAM通信系统仿真实现
  • 2026口碑出众的有机玻璃加工厂家排行榜出炉,亚克力制作/有机玻璃加工/有机玻璃定制,有机玻璃加工实力厂家找哪家 - 品牌推荐师
  • 以小身材融入场景,用大算力赢战AI!联想PGX工作站,做AI时代的小巨人 - 博客万
  • 2026年钢坝/翻板/铸铁/钢制水利闸门厂家推荐榜:新河县前进水工机械厂,适配防洪/灌溉/市政多场景水资源调控 - 品牌推荐官