当前位置：首页 > news >正文

SCALE技术：视觉-语言-动作模型的自适应优化方案

news 2026/7/10 17:39:59

1. 视觉-语言-动作模型的核心挑战与SCALE的创新突破

在机器人控制领域，视觉-语言-动作（Vision-Language-Action, VLA）模型正成为实现通用智能体的关键技术路径。这类模型通过融合视觉观察和语言指令，直接输出控制动作，形成闭环控制系统。然而，真实世界的复杂环境给VLA模型带来了巨大挑战——训练阶段无法穷尽所有可能的场景变化，导致模型在测试时面临各种不确定性。

传统解决方案主要依赖两种思路：一是通过大规模数据训练提升模型泛化能力，二是在测试时采用多次采样和验证（Test-Time Scaling, TTS）来提高鲁棒性。但这些方法存在明显局限：大规模训练成本高昂且难以覆盖长尾场景；TTS方法需要额外训练验证模块或执行多次前向传播，既增加计算开销又难以满足实时控制需求。

SCALE技术的突破性在于，它发现并利用了VLA模型内部的一个关键信号——"自不确定性"（self-uncertainty）。这种不确定性直接来源于模型输出分布的特性，无需任何外部监督或额外计算。具体而言，当模型对当前决策犹豫不决时，其预测token的分布会表现出两种特征：

整体分布趋于平坦（多候选动作概率相近）
对top-1选择的置信度不足

1.1 传统方法的局限性分析

现有TTS方法通常存在三个主要问题：

计算效率低下：如RoboMonkey等方法需要生成N个候选动作并通过验证模块筛选，导致推理时间线性增长。实测数据显示，当N=16时，OpenVLA的推理延迟会增加15.9倍。
领域适应性差：验证模块通常在特定数据分布上训练，当测试环境超出训练分布时（如出现全新物体或布局），性能会显著下降。
干预维度单一：现有方法仅调整动作解码过程，而保持视觉编码固定。但在存在视觉干扰物（如外观相似的多个物体）时，仅靠动作调整无法从根本上解决问题。

关键发现：在LIBERO-Long基准测试中，传统TTS方法在"将摩卡壶放在炉灶上"这类存在视觉干扰的任务上，成功率比SCALE低10-15个百分点。这表明单纯的动作优化无法解决感知歧义问题。

1.2 SCALE的核心创新点

SCALE的创新性解决方案建立在三个关键设计上：

双参考分布度量：

低不确定性参考（qlow）：以top-1 token为中心的准one-hot分布，反映模型对当前选择的确定性
高不确定性参考（qhigh）：均匀分布，反映完全不确定状态
自不确定性分数uk = DKL(pk||qlow) - DKL(pk||qhigh)，量化当前分布在这两个极端之间的位置

联合调制机制：

# 自适应动作解码示例 def adaptive_decoding(logits, u_k, T0=1.0): tau_k = T0 * sigmoid(u_k) # 温度系数随不确定性调整 scaled_logits = logits / tau_k return Categorical(logits=scaled_logits).sample()

单步时序关联：

视觉注意力的调整基于历史不确定性变化的指数移动平均（EMA）
当前不确定性高于历史均值时，增大注意力温度γ拓宽感知范围
低于均值时，减小γ聚焦关键区域

这种设计使得SCALE在保持单次前向传播的效率同时，实现了感知-动作的协同优化。如图1所示，当面对视觉干扰时，传统方法（左）的固定注意力会锁定错误区域，而SCALE（右）能动态调整视觉关注点。

图1：SCALE（右）与传统固定管道（左）的对比。红色/绿色框分别显示错误和正确的注意力区域

2. SCALE的技术实现细节

2.1 自不确定性的数学建模

SCALE的自不确定性度量建立在坚实的数学基础上。通过展开公式(2)，可以发现：

uk = E[log(qhigh/qlow)] = ∫ pk(x)log(qhigh(x)/qlow(x))dx

这实质上是假设检验中的对数似然比统计量，衡量当前分布pk相对于两种极端假设（完全确定vs完全不确定）的倾向性。使用sigmoid函数转换后，σ(uk)可以解释为"当前状态不确定"的后验概率。

实现细节：

为避免数值问题，qlow设置为(1-ε)在top-1 token，其余token平分ε/(|V|-1)
实验表明ε∈[1e-12,1e-10]时性能稳定，最终选用ε=1e-12
对于多token动作（如π0-FAST的5个token），仅在前几个关键token上应用采样

2.2 视觉-动作的协同调节

SCALE的创新之处在于将不确定性信号同时注入视觉编码和动作生成两个阶段：

2.2.1 视觉注意力调制

视觉编码器的自注意力机制被改造为：

Attn(Q,K,V) = softmax(QKᵀ/(√d·γ))V

其中γ通过以下方式计算：

# 视觉温度系数计算 delta_u = u_curr - ema_prev # 当前与历史不确定性的偏差 gamma = kappa * tanh(delta_u) # kappa=2限制范围在(0.5,2)

这种设计带来两个优势：

时序相关性：利用EMA平滑不确定性信号，避免瞬时波动导致的注意力抖动
自适应缩放：γ>1时软化注意力分布，扩大感知范围；γ<1时锐化注意力，聚焦关键特征

2.2.2 动作采样策略

动作解码采用温度采样，但温度系数τ由不确定性动态决定：

τ = T0·σ(uk)

不同模型的基础温度T0需要调整：

OpenVLA：T0=1.0
π0-FAST和SpatialVLA：T0=0.3（因其动作空间离散化方式不同）

2.3 实现效率优化

为确保实时性，SCALE采用了几项关键优化：

视觉-动作流水线：当前步的视觉处理使用上一步的不确定性偏差，避免等待当前步动作解码完成。实验表明这种"滞后一步"的设计仅带来1.3%的性能损失，却保持了单次前向传播的效率。
部分token采样：对于生成多token动作的模型（如SpatialVLA的12个token），仅在前3-5个关键token上应用不确定性调节，后续token自然受前面决策影响。
批量并行计算：自不确定性度量仅需输出logits，可与其他计算并行，几乎不增加额外开销。

表1对比了不同方法在LIBERO基准上的表现：

方法	空间任务	物体任务	目标任务	长程任务	平均
OpenVLA(基线)	86.2	86.2	77.7	52.7	75.7
+温度采样(t=1.0)	85.1	87.9	78.9	54.7	76.7
+Top-k(k=40,t=0.7)	85.2	88.2	78.3	55.2	76.7
+SCALE(ours)	89.5	91.0	82.3	63.3	81.5

3. 跨场景实验验证与性能分析

3.1 仿真环境测试

我们在三大类仿真基准上评估SCALE：

LIBERO基准：

包含空间变换、物体替换、目标修改和长程任务四类挑战
SCALE使OpenVLA平均成功率提升5.8%，在长程任务上提升尤为显著（52.7%→63.3%）
对更强的π0-FAST模型仍有1.8%的提升

SIMPLER-WidowX：

测试精确的拾取放置操作
在"将胡萝卜放在毛巾上"任务中，SCALE将π0-FAST的成功率从62.5%提升至69.4%
对零样本设置的SpatialVLA提升达10.4%

LIBERO-PRO-Long：

包含语言重述、物体替换等扰动
在物体替换扰动下，SCALE帮助OpenVLA从26.6%提升到30.0%

3.2 真实机器人实验

真实世界实验采用UR10e机械臂，设置包括：

已知任务：胡萝卜→毛巾、茄子→碗、柠檬→盘子
未知任务：泰迪熊→碗、立方体→盘子（测试几何形状和材质泛化）

结果如表2所示：

模型	已知任务平均	未知任务平均
OpenVLA	36.1%	22.9%
+SCALE	55.6%	39.6%
π0-FAST	72.2%	43.8%
+SCALE	86.1%	56.3%

特别值得注意的是在"将泰迪熊放入碗中"任务中，软质玩偶的形变使传统方法成功率仅29.2%，而SCALE通过动态调整抓取策略达到45.8%。

3.3 关键组件分析

通过消融实验验证各组件贡献：

自不确定性度量：比较了五种不确定性指标，SCALE的dual-reference设计效果最佳（63.3%），比次优的Gini系数高5.5%。
视觉调制目标：实验证明调节视觉编码器的单模态注意力（63.3%）优于调节VLA中的跨模态注意力（57.4%）。
时序信号使用：基于变化量(Δu)的调节比直接用瞬时值(u)高7.9%，说明追踪不确定性变化趋势更重要。

4. 实际应用中的经验与技巧

4.1 参数调优指南

根据我们的实践经验，不同VLA架构需要调整的关键参数：

基础温度T0：
- 动作空间大的模型（如OpenVLA）：T0=1.0
- 精细控制模型（如π0-FAST）：T0=0.3-0.5
- 可通过验证集上的边际成功率（margin success rate）校准
EMA平滑因子α：
- 高频控制（>10Hz）：α=0.8-0.9
- 低频决策：α=0.5-0.7
- 太高会导致响应迟钝，太低会引起注意力抖动
视觉温度范围κ：
- 一般设置κ=2，限制γ∈(0.5,2)
- 对存在微小关键物体的场景（如电子元件），可缩小下限至0.3