当前位置: 首页 > news >正文

VLA模型太慢?我们把视觉token砍到16个,机器人成功率反而暴涨52.4%|ICML 2026 GridS源码解读

一张图拆成256个patch,Transformer算到冒烟?背景区域纯属浪费。
本文提出GridS:可微网格采样,主动预测K个连续坐标 + 双线性插值,token数砍到16甚至1,FLOPs降76%,真实机器人堆叠积木成功率从7.6%飙到60%,OOD场景下+38.1%。
代码已开源,附LIBERO-PLUS全难度评测。

代码:https://github.com/Fediory/Grid-Sampler

网页/demo:Grid Sampler — ICML 2026

论文:[2605.11817] See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

作者/单位:

Yixu Feng1, Zinan Zhao2, Yanxiang Ma1, Chenghao Xia3, Chengbin Du3, Yunke Wang1, Chang Xu1

1 University of Sydney · 2 City University of Hong Kong · 3 StellarEdge Robotics

1. 痛点:VLA模型为啥跑不动?

目前主流VLA(Vision-Language-Action)模型如π0、SmolVLA、OpenVLA,处理图像的方式基本沿用ViT:
把224×224的图切成16×16的patch → 256个视觉token。
下游Transformer的复杂度是O(N²),256²=65536,再乘层数、batch、多视角……推理延迟感人。

更关键的是,大部分token来自背景、桌面、阴影,跟当前任务(比如“抓住绿色方块”)毫无关系。
之前有人做token剪枝,要么按语义重要性丢掉patch(FastV、SparseVLM),要么用启发式规则动态保留。
但这些方法有两个致命伤:

  • 离散选择 + 固定网格:抓取点落在两个patch之间时,只能选左边或右边 → 量化误差,精细操作必崩。

  • 训练时不可微:剪枝策略没法通过任务loss学习,效果掉得厉害(LIBERO上-1.5%~-4.6%)。

2. 我们的方案:GridS(Differentiable Grid Sampler)

核心思想:不丢patch,而是主动预测连续坐标,然后双线性采样

2.1 整体流程(附伪代码级解释)

  1. 密集特征提取(预训练ViT,可冻结)
    输入图像 I ∈ R^(3×H_R×W_R) → 特征图 T_dense ∈ R^(H×W×C)(比如16×16×768)

  2. 全局坐标预测
    对T_dense做全局平均池化 → 上下文向量 z ∈ R^C
    轻量MLP + Sigmoid → 预测K个归一化坐标 P ∈ [0,1]^(K×2),K << H×W

  3. 可微双线性采样(核心创新)
    对每个坐标 (x,y),找到四个最近邻网格点,按距离加权求和:

    # 伪代码 x1, y1 = floor(x), floor(y) dx, dy = x - x1, y - y1 w1 = (1-dx)*(1-dy); w2 = dx*(1-dy) w3 = (1-dx)*dy; w4 = dx*dy F_sampled = w1*F[x1,y1] + w2*F[x1+1,y1] + w3*F[x1,y1+1] + w4*F[x1+1,y1+1]

    这个操作对坐标(x,y)完全可微 → 梯度可以从任务loss流回MLP,让模型自动学会把采样点挪到“最有价值”的位置。

  4. 几何信息注入
    将坐标P编码成位置编码,加到采样特征上 → 得到最终稀疏token T_spa ∈ R^(K×C)
    再与language tokens、action tokens拼接,送入下游Transformer。

2.2 与现有方法的本质区别

方法选择方式精度是否可微OOD鲁棒性
FastV / SparseVLM离散patch丢弃格点级
VLA-Cache离散缓存更新格点级
GridS (Ours)连续坐标+双线性采样亚像素级

3. 实验结果:模拟 + 真实机器人全刷榜

3.1 LIBERO模拟(π0基座)

配置Visual TokensFLOPs (G)平均成功率
Baseline256216.094.4%
π0 + FastV†100143.592.9% (-1.5)
π0 + SparseVLM†100150.389.8% (-4.6)
π0 + GridS1651.696.0% (+1.6)
π0 + GridS443.695.5% (+1.1)
  • FLOPs降低76%,训练速度(batch=128)提升3.4倍

  • 长序列任务(Long)从85.6% → 90.2%,证明GridS有效减少误差累积

  • 完整结果如下:

3.2 ALOHA双机械臂精细插入

方法Tokens插入(人类示教)成功率
π0 Baseline25656.7%
π0 + GridS1664.2% (+7.5)

3.3 真实机器人SO100:堆叠积木(最炸裂的结果)

任务:绿色方块叠到蓝色方块上(需要精准对准+适时放手)
基线:SmolVLA(64 tokens)成功率仅7.6%,几乎每次都失败
GridS(16 tokens):成功率60.0%,绝对提升+52.4%,同时执行时间减少3.3秒

OOD场景(21种:换背景/加干扰物/移动物体位置/改变光照):

  • 基线:0%

  • GridS:38.1%

这意味着GridS不是死记硬背训练轨迹,而是真正学到了“几何交互”的因果结构。

完整结果如下:

3.4 LIBERO-PLUS(OOD测试)

LIBERO-PLUS包含7种扰动:相机视角、光照颜色/方向、背景纹理、物体布局、传感器噪声、机器人初始关节、语言指令改写。
我们测试了π0.5 + GridS(K=32) vs 基线(256 tokens):

扰动维度基线GridSΔ
相机视角 (Spatial)67.0%86.4%+19.4%
光照条件 (Goal)85.7%97.8%+12.1%
传感器噪声 (LIBERO-10)78.4%84.0%+5.6%
难度Level-5 (最困难)52.6%56.0%+3.4%

而现有离散剪枝方法在LIBERO-PLUS上崩溃超过20%。
GridS牺牲不到3%的平均成功率(87.5%压缩率),换来了视觉OOD下的大幅反超。

3.5 附录里的“疯子实验”:单token

用π0.5 + GridS,K=1(99.6% token被砍掉)。
基线(256 tokens)平均成功率96.7% →GridS单token 96.6%,几乎没掉。
这说明VLA模型中存在巨大的信息冗余,真正需要的只是一个“最小充分统计量”。

4. 消融实验与关键发现

4.1 K值选择(真实机器人堆叠)

K成功率分析
40%信息瓶颈,几何分辨率不足
828.5%部分恢复
1660.0%最优
3219.0%引入过多背景噪声
Baseline(64)7.6%噪声淹没信号

呈现倒U型 → 适当的压缩可以滤除干扰,过度压缩或不足都不行。

4.2 其他组件验证

  • 随机采样(K=16):成功率87.8%(vs GridS 96.0%)→ “采哪儿”非常关键

  • Top-K按激活值剪枝:90.5%,仍不如GridS

  • 用SAM引导采样:掉6.2% → 语义分割 ≠ 任务驱动几何采样

  • 去掉坐标编码:掉3.6% → 连续采样破坏了空间结构,必须显式注入坐标

5. 局限性 & 未来工作

  1. 单batch推理加速不明显(~1.2x)
    因为JAX编译已经把基线优化得很极致,瓶颈移到kernel launch。但大batch(128)下3.2倍加速,训练时3.4倍加速,对服务器端/集群很友好。

  2. 需要全参数微调
    用LoRA会掉8.3%,因为GridS彻底改变了token分布,低秩适应不足以对齐注意力。未来需要设计PEFT友好版本。

  3. K值是固定的
    当前手动设定,无法根据场景复杂度动态调整。可以扩展为预测每个样本的K,是一个有趣的方向。

6. 代码 & 使用建议

集成方式:作为plug-and-play模块,插在ViT编码器和下游Transformer之间。
推荐配置

  • 全参数微调(或至少解冻部分层)

  • K=16作为起点(平衡精度与速度)

  • 输入分辨率保持原样(GridS会在特征图上采样)

7. 总结

GridS的核心贡献不是“又一种剪枝”,而是重新定义了VLA的视觉感知范式:

从“被动保留重要patch”转向“主动采样最小充分统计量”。

它证明了:

  • 机器人任务不需要全图细节,只需要几何关键点

  • 适当的信息丢失(0.8~0.9保留率)反而提升OOD泛化

  • 可微连续采样彻底摆脱了固定网格的量化误差

如果你也在做具身智能、机器人学习、模型压缩,强烈推荐试一下GridS。
代码干净,效果暴力,欢迎提issue和PR。

http://www.jsqmd.com/news/820032/

相关文章:

  • 工程化AI编程:claude-code-blueprint项目实战与最佳实践
  • AI收入占比首破30%,AI驱动的阿里有何不同?
  • 液冷下半场:两相液冷比拼的不仅是冷板厚度,还比什么?
  • 基于CircuitPython与Adafruit IO构建本地物联网仪表盘
  • 上海市第一人民医院放射科张佳胤教授等团队:基于CT心肌灌注影像组学模型预测主要不良心血管事件的开发与验证
  • Llama 3专用JavaScript分词器:原理、API与实战指南
  • Prisma Relay游标分页库实战:解决GraphQL分页难题
  • 神经网络原理 第八章:主分量分析
  • 开源集成利器OpenClaw:深度连接Bitrix24与外部系统的PHP解决方案
  • ARM内存管理:MMU与GPT原理及应用解析
  • 10亿条URL的黑名单,如何快速判断一个新请求的URL是否在黑名单内?
  • 别再优化传统SEO了!2026年AI搜索排名核心因子突变——5大隐性信号(用户意图蒸馏度、上下文保真率、推理链可溯性)全曝光
  • 基于Docker的AI开发环境部署:hammercui/qmd-python-cuda镜像实战指南
  • 代码可视化工具:从AST解析到自动化图表生成的技术实践
  • 使用pretty-log美化终端日志:提升开发调试效率的实践指南
  • 2026年4月市面上评价高的封箱机供应商推荐,光纤激光机/包装袋喷码机/紫外激光机/分页机/平面贴标机,封箱机品牌选哪家 - 品牌推荐师
  • 江西VI设计品牌哪家强
  • 别再只用AddModuleScore了!用irGSEA包一站式搞定单细胞基因集富集分析与8种可视化
  • 从穿孔卡片到多任务并行:聊聊操作系统演进的几个关键“顿悟”时刻
  • AI产品开发脚手架:基于Next.js与Prisma的全栈技术栈解析
  • 基于MCP协议构建TikTok趋势分析服务器:架构设计与实战指南
  • LTX2.3 最强开源视频生成模型 文生图 / 图生视频 / 音频驱动|低端显卡本地安装
  • 刘强东把京东零售的钱,都“种”进了外卖、机器人和出海
  • 18、K8S-调度管理
  • 装机实战:Win10系统盘安装遇“找不到驱动程序”的排查与解决指南
  • 基于MCP协议构建微信通知服务:解耦业务与通知逻辑的实践
  • Magnet2Torrent技术解析:磁力链接到种子文件的工程化转换方案
  • 全域数学·体积与表面积通项定理【乖乖数学】
  • Arm Debugger内存操作与MMU调试实战指南
  • 前端学习打卡Day9:CSS 关系选择器、综合实战案例|古诗鉴赏网页制作