当前位置：首页 > news >正文

VLA模型太慢？我们把视觉token砍到16个，机器人成功率反而暴涨52.4%｜ICML 2026 GridS源码解读

news 2026/7/10 20:54:13

一张图拆成256个patch，Transformer算到冒烟？背景区域纯属浪费。
本文提出GridS：可微网格采样，主动预测K个连续坐标 + 双线性插值，token数砍到16甚至1，FLOPs降76%，真实机器人堆叠积木成功率从7.6%飙到60%，OOD场景下+38.1%。
代码已开源，附LIBERO-PLUS全难度评测。

代码：https://github.com/Fediory/Grid-Sampler

网页/demo：Grid Sampler — ICML 2026

论文：[2605.11817] See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model

作者/单位：

Yixu Feng1, Zinan Zhao2, Yanxiang Ma1, Chenghao Xia3, Chengbin Du3, Yunke Wang1, Chang Xu1

1 University of Sydney · 2 City University of Hong Kong · 3 StellarEdge Robotics

1. 痛点：VLA模型为啥跑不动？

目前主流VLA（Vision-Language-Action）模型如π0、SmolVLA、OpenVLA，处理图像的方式基本沿用ViT：
把224×224的图切成16×16的patch → 256个视觉token。
下游Transformer的复杂度是O(N²)，256²=65536，再乘层数、batch、多视角……推理延迟感人。

更关键的是，大部分token来自背景、桌面、阴影，跟当前任务（比如“抓住绿色方块”）毫无关系。
之前有人做token剪枝，要么按语义重要性丢掉patch（FastV、SparseVLM），要么用启发式规则动态保留。
但这些方法有两个致命伤：

离散选择 + 固定网格：抓取点落在两个patch之间时，只能选左边或右边 → 量化误差，精细操作必崩。
训练时不可微：剪枝策略没法通过任务loss学习，效果掉得厉害（LIBERO上-1.5%~-4.6%）。

2. 我们的方案：GridS（Differentiable Grid Sampler）

核心思想：不丢patch，而是主动预测连续坐标，然后双线性采样。

2.1 整体流程（附伪代码级解释）

密集特征提取（预训练ViT，可冻结）
输入图像 I ∈ R^(3×H_R×W_R) → 特征图 T_dense ∈ R^(H×W×C)（比如16×16×768）
全局坐标预测
对T_dense做全局平均池化 → 上下文向量 z ∈ R^C
轻量MLP + Sigmoid → 预测K个归一化坐标 P ∈ [0,1]^(K×2)，K << H×W
可微双线性采样（核心创新）
对每个坐标 (x,y)，找到四个最近邻网格点，按距离加权求和：
```
# 伪代码 x1, y1 = floor(x), floor(y) dx, dy = x - x1, y - y1 w1 = (1-dx)*(1-dy); w2 = dx*(1-dy) w3 = (1-dx)*dy; w4 = dx*dy F_sampled = w1*F[x1,y1] + w2*F[x1+1,y1] + w3*F[x1,y1+1] + w4*F[x1+1,y1+1]
```
这个操作对坐标(x,y)完全可微 → 梯度可以从任务loss流回MLP，让模型自动学会把采样点挪到“最有价值”的位置。
几何信息注入
将坐标P编码成位置编码，加到采样特征上 → 得到最终稀疏token T_spa ∈ R^(K×C)
再与language tokens、action tokens拼接，送入下游Transformer。

2.2 与现有方法的本质区别

方法	选择方式	精度	是否可微	OOD鲁棒性
FastV / SparseVLM	离散patch丢弃	格点级	❌	差
VLA-Cache	离散缓存更新	格点级	❌	差
GridS (Ours)	连续坐标+双线性采样	亚像素级	✅	强

3. 实验结果：模拟 + 真实机器人全刷榜

3.1 LIBERO模拟（π0基座）

配置	Visual Tokens	FLOPs (G)	平均成功率
Baseline	256	216.0	94.4%
π0 + FastV†	100	143.5	92.9% (-1.5)
π0 + SparseVLM†	100	150.3	89.8% (-4.6)
π0 + GridS	16	51.6	96.0% (+1.6)
π0 + GridS	4	43.6	95.5% (+1.1)

FLOPs降低76%，训练速度（batch=128）提升3.4倍
长序列任务（Long）从85.6% → 90.2%，证明GridS有效减少误差累积
完整结果如下：

3.2 ALOHA双机械臂精细插入

方法	Tokens	插入(人类示教)成功率
π0 Baseline	256	56.7%
π0 + GridS	16	64.2% (+7.5)

3.3 真实机器人SO100：堆叠积木（最炸裂的结果）

任务：绿色方块叠到蓝色方块上（需要精准对准+适时放手）
基线：SmolVLA（64 tokens）成功率仅7.6%，几乎每次都失败
GridS（16 tokens）：成功率60.0%，绝对提升+52.4%，同时执行时间减少3.3秒

OOD场景（21种：换背景/加干扰物/移动物体位置/改变光照）：

基线：0%
GridS：38.1%

这意味着GridS不是死记硬背训练轨迹，而是真正学到了“几何交互”的因果结构。

完整结果如下：

3.4 LIBERO-PLUS（OOD测试）

LIBERO-PLUS包含7种扰动：相机视角、光照颜色/方向、背景纹理、物体布局、传感器噪声、机器人初始关节、语言指令改写。
我们测试了π0.5 + GridS（K=32） vs 基线（256 tokens）：

扰动维度	基线	GridS	Δ
相机视角 (Spatial)	67.0%	86.4%	+19.4%
光照条件 (Goal)	85.7%	97.8%	+12.1%
传感器噪声 (LIBERO-10)	78.4%	84.0%	+5.6%
难度Level-5 (最困难)	52.6%	56.0%	+3.4%

而现有离散剪枝方法在LIBERO-PLUS上崩溃超过20%。
GridS牺牲不到3%的平均成功率（87.5%压缩率），换来了视觉OOD下的大幅反超。

3.5 附录里的“疯子实验”：单token

用π0.5 + GridS，K=1（99.6% token被砍掉）。
基线（256 tokens）平均成功率96.7% →GridS单token 96.6%，几乎没掉。
这说明VLA模型中存在巨大的信息冗余，真正需要的只是一个“最小充分统计量”。

4. 消融实验与关键发现

4.1 K值选择（真实机器人堆叠）

K	成功率	分析
4	0%	信息瓶颈，几何分辨率不足
8	28.5%	部分恢复
16	60.0%	最优
32	19.0%	引入过多背景噪声
Baseline(64)	7.6%	噪声淹没信号

呈现倒U型 → 适当的压缩可以滤除干扰，过度压缩或不足都不行。

4.2 其他组件验证

随机采样（K=16）：成功率87.8%（vs GridS 96.0%）→ “采哪儿”非常关键
Top-K按激活值剪枝：90.5%，仍不如GridS
用SAM引导采样：掉6.2% → 语义分割 ≠ 任务驱动几何采样
去掉坐标编码：掉3.6% → 连续采样破坏了空间结构，必须显式注入坐标

5. 局限性 & 未来工作

单batch推理加速不明显（~1.2x）
因为JAX编译已经把基线优化得很极致，瓶颈移到kernel launch。但大batch（128）下3.2倍加速，训练时3.4倍加速，对服务器端/集群很友好。
需要全参数微调
用LoRA会掉8.3%，因为GridS彻底改变了token分布，低秩适应不足以对齐注意力。未来需要设计PEFT友好版本。
K值是固定的
当前手动设定，无法根据场景复杂度动态调整。可以扩展为预测每个样本的K，是一个有趣的方向。