当前位置: 首页 > news >正文

Tiny_VLA

TinyVLA: Towards Fast, Data-Efficient Vision-Language-ActionModels for Robotic Manipulation

文献链接:Tiny-VLA:Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

文献标题《TinyVLA: Towards Fast, Data-Efficient Vision-Language-ActionModels for Robotic Manipulation》
作者 / 团队Junjie Wen, Yichen Zhu, Member, IEEE, Jinming Li, Minjie Zhu
发表期刊 / 年份2025-5-13
核心关键词Tiny

摘要

VLA模型通过端到端的学习过程在视觉运动控制和示教理解方面展现了巨大潜力。但是目前VLA模型面对了巨大的潜力:推理过慢以及要求在大量的机器人数据上进行广泛的预训练,使得真实部署困难。本文中引入了TinyVLA**,与目前现存的模型相比拥有两个优势:1、推理速度块,2、数据效提升,消除了对预训练阶段的需求。该工作有着两个关键的组件:1、初始化了一个健壮的policy主干–高速的多模态模型,2、在微调期间组合了扩散策略解码器,使得其能够准确的预测机器人动作。**作者在仿真和真实机器人上进行了广泛的评估,表明了该方法在速度和数据效率上极大程度上优于目前的SOTA,同时还具备与之媲美的性能。此外,TinyVLA还多维度上展现了强大的泛化性,其中包括语言描述、新目标、无法观测区域、目标位置的变化 、环境转变。作者认为TinyVLA利用policy预训练的多模态学习可以提供有价值的方向。

  • 作者认为的问题

    如何设计VLA保持现有VLA模型优势的前提下同时还拥有快速性和数据效率?

    • 解决

      作者发现两个关键因素导致目前VLA模型推理延迟。1、使用很大的VLM模型,通常超过了7B,2、他们通过自回归产生离散动作token,要求对每一个自由度重复处理。因此,作者首先才拥有一个小于1BVLM模型同时也具备强有力的能力,然后使用下一token独立预测的技术,首先附加了一个基于扩散头去预训练一个多模态模型直接输出动作。

  • 作者认为自己贡献

    • 引入了一个新的VLA架构-组合了一个带有扩散模型的轻量化VLM,使其能够快速推理,更加强健的性能以及卓越的泛化能力。<
http://www.jsqmd.com/news/616398/

相关文章:

  • 直播运营需要哪些数据分析能力?场观、停留、成交和投流怎么联动分析
  • rdk3 sdk 整理不完善的地方-->工具链
  • 创意无限:用圣女司幼幽模型生成不同风格的角色场景图
  • OpenClaw智能监控:Qwen3-32B实现服务器异常自动告警
  • 后悔没早看!敏感肌日常修护全攻略,轻松养出健康厚脸皮✨
  • 20230508直播录播-
  • OpenClaw异常处理机制:千问3.5-27B任务失败自动回滚
  • 编程语言的本质是什么?从“动态性“三维模型重新理解你写的每一行代码
  • 品牌设计没头绪?专业公司来帮你!
  • 2026年怎么部署OpenClaw?阿里云超简单5步喂奶级教程
  • Phi-3-mini-4k-instruct-gguf完整指南:GGUF模型加载机制与llama-cpp内存优化原理
  • Entity Framework Core 10向量搜索深度实践(从NuGet包冲突到ANN精度调优全链路拆解)
  • 前端学习笔记-vue3基础
  • TOP3化妆学校,究竟哪家强?
  • 20230709直播实录
  • 基于STM32的多功能温室大棚环境监测系统:实时显示、远程监控与智能调节温湿度
  • Gradio UI定制化:修改SenseVoice-Small webui.py实现多语言切换+结果导出功能
  • 20230908直播录播回放
  • VOOHU沃虎单对以太网(SPE)技术白皮书:原理、标准、应用与选型
  • 2026化工行业高仓(6~12 米)条码采集方案:海雅达HDT500“12米中远距扫描”的5寸手持终端PDA
  • GTE-Base-ZH镜像体验:可视化界面+API,双模式交互更便捷
  • 2026企业用工数字化:如何选择适合自己的企业培训系统?
  • PHP 8.9 JIT开启后反而变慢?深度剖析opcache.jit_buffer_size与CPU缓存行对齐的隐性冲突
  • 直播带货系统源码开发需要哪些功能?电商直播平台搭建详解
  • 20230930直播实录
  • sp-html2canvas-render在iOS中跨域问题
  • 长沙这个酒吧好玩到让你不想回家!
  • Vue 2 与 Vue 3 的区别
  • Windows Terminal 文本出现黑色背景问题解决方法
  • java项目(附资料)-基于SpringBoot+Vue前后端分离的在线商城系统设计与实现