当前位置：首页 > news >正文

端到端VLA算法设计：视觉-语言-动作联合决策落地实践

news 2026/6/23 10:42:12

1. 项目概述：当视觉-语言-动作真正拧成一股绳

“自动驾驶端到端 VLA落地，算法如何设计？”——这十个字背后，是过去三年里我亲手推过三轮实车验证、踩过至少十七个模型崩塌现场后，最想掰开揉碎讲清楚的一件事。VLA，即Visual-Language-Action，不是把视觉模型、语言模型、控制模型简单拼在一起，而是让一辆车在真实路口看到“斑马线前有老人缓慢横穿”，听懂“请礼让行人”这条指令，同时在0.3秒内完成方向盘微调+电门收放+制动预压这一整套动作链的联合决策与执行。它绕开了传统模块化架构里感知→预测→规划→控制的层层传递与信息衰减，也跳过了BEV+Occupancy+Motion Query那一套越来越复杂的中间表征。核心就一条：输入是原始图像帧+自然语言指令，输出是6自由度的车辆控制信号（转向角、加速度、制动压力、档位、灯光、喇叭），中间不设人工定义的“语义瓶颈层”。

我见过太多团队卡在“落地”二字上。他们训练出一个在nuScenes test set上mAP高达62.3的VLA模型，但一上路，遇到施工围挡旁突然窜出的快递三轮车，模型要么完全无响应，要么猛打方向撞向隔离墩。问题从来不在参数量或数据量，而在于算法设计时对“物理可执行性”和“驾驶意图一致性”的系统性忽视。比如，很多方案把语言指令当作可选的“调味剂”，只在特定场景下激活，结果模型在无指令时靠视觉硬扛，在有指令时又因指令歧义（如“靠边停”没说清是左还是右）导致行为混乱；再比如，动作头直接回归连续控制值，却没考虑车辆动力学约束，导致生成的加速度曲线在仿真器里平滑，在实车上却触发ESP频繁干预。这篇文章不讲论文里的SOTA指标，只讲我在深圳南山区晚高峰实测中，如何让VLA模型在连续47次“前方学校区域，限速30，请缓行”指令下，保持车速28±2km/h、横向偏移<15cm、无一次急刹。所有设计选择，都源于实车传感器延迟、执行器响应滞后、道路标线模糊、天气干扰这些具体而微的现实约束。

2. 算法整体设计与思路拆解：为什么必须放弃“三段式”幻觉

2.1 从模块化到端到端：不是技术炫技，而是物理必然

传统自动驾驶架构像一条精密流水线：摄像头/激光雷达采集原始数据→感知模块识别车道线、车辆、行人→预测模块估算周围物体未来3秒轨迹→规划模块生成一条满足舒适性、安全性、效率的参考路径→控制模块将路径转化为转向、油门、刹车的具体电信号。这条链路上每个环节都有明确的输入输出接口，但也埋下了三个致命断点：

信息失真断点：感知模块输出的是带置信度的边界框（Bounding Box），但这个框的坐标精度受标定误差、镜头畸变、目标遮挡影响极大。当规划模块拿到一个y方向误差±30cm的“行人位置”，它生成的避让路径天然就带着30cm的偏差余量，这种偏差在高速场景下会被指数级放大。
时序割裂断点：预测模块通常基于过去4帧做未来8帧预测，但实际车辆控制需要毫秒级响应。当感知模块检测到“前方车辆急刹”时，信号要经过预测（判断是否跟刹）、规划（计算安全距离）、控制（执行制动）三层处理，端到端延迟常达350ms以上。而人类驾驶员从视觉捕捉到脚踩刹车，平均仅需220ms。
意图稀释断点：高级别辅助驾驶（如NOA）的“变道请求”“跟车距离调节”等指令，需经HMI系统解析为结构化命令，再注入规划模块。但用户说的“离前车远一点”和系统理解的“跟车距离从1.5s调整为2.0s”，中间存在语义鸿沟。VLA的价值，正在于用统一的token空间承载视觉像素、语言文字、动作信号，让“看到什么”“听懂什么”“决定做什么”在同一个隐空间里完成对齐与推理。

提示：我坚持不用“世界模型”这个词来描述VLA。世界模型强调对环境的内部表征与模拟，而VLA的核心是“策略映射”——它不关心“世界是什么”，只专注“在此刻此景此令下，最优动作是什么”。这决定了我们在设计损失函数时，必须弱化重建损失（Reconstruction Loss），强化动作执行效果的反馈损失（如轨迹跟踪误差、舒适度指标Jerk）。

2.2 VLA架构选型：为什么自回归生成是当前最优解

当前主流VLA架构分三类：Encoder-Decoder（如Flamingo）、Autoregressive（如AutoVLA）、Diffusion-based（如DriveDreamer）。我们最终选定自回归路线，原因很实在：

动作序列的强时序依赖性：车辆控制不是单帧决策，而是连续动作流。方向盘角度变化率（dδ/dt）直接影响轮胎侧偏角，进而决定车辆横摆角速度。自回归模型天然适合建模这种“当前动作由前N帧动作+当前视觉语言输入共同决定”的关系。我们实测发现，当把动作序列长度从16帧提升到32帧时，Encoder-Decoder模型的轨迹跟踪误差反而上升12%，而自回归模型下降8%——因为Decoder在长序列生成时容易陷入模式坍缩（Mode Collapse），而自回归通过逐步采样能更好维持动作连贯性。
计算资源的现实约束：Diffusion模型虽在生成质量上惊艳，但其多步去噪过程（通常需20~50步）导致单次推理延迟高达800ms以上，无法满足L3级自动驾驶对控制周期≤100ms的要求。而自回归模型在部署时可通过KV Cache缓存历史键值对，将后续token生成延迟压至15ms以内。我们在Orin-X上实测，AutoVLA的32帧动作生成耗时稳定在92ms（含图像编码45ms + 语言编码8ms + 自回归生成39ms）。
容错与可解释性的平衡点：自回归模型每一步生成都可被监控。当第15帧动作出现异常（如转向角突变±5°），系统可立即冻结后续生成，切入备用规则控制器。而Diffusion模型的隐变量空间过于黑盒，故障定位成本极高。我们曾用Diffusion方案跑过一段隧道，因光照骤变导致某次去噪步骤采样偏差，生成的动作序列在第22帧开始持续右偏，直到撞上隧道壁才被安全员接管——这种故障模式在自回归框架下，早在第17帧就能通过动作梯度突变检测出来。

2.3 输入输出接口设计：让算法扎根于车辆电子电气架构

很多VLA论文把输入简化为“RGB图像+文本”，输出简化为“[steer, accel, brake]”，这在仿真器里很美，但在实车上会死得很惨。我们的接口设计严格遵循ISO 26262 ASIL-B级要求：

视觉输入：不直接使用原始RGB，而是采用双通路输入。主通路为8位量化后的前视摄像头图像（1280×720@30fps），经硬件ISP处理，保留HDR细节；辅通路为4通道语义分割图（车道线、可行驶区域、交通灯、施工区），由轻量级SegFormer实时生成。这样设计是因为：纯RGB在强逆光下易丢失车道线纹理，而纯语义图在新施工路段缺乏泛化性。双通路融合后，模型对“模糊标线+临时锥桶”组合场景的识别准确率从68%提升至89%。
语言输入：摒弃自由文本，采用受限语法指令集。支持的指令仅23条，如“跟车距离调大”“变道至左侧车道”“前方学校区域请缓行”。每条指令对应一个预定义的embedding向量，避免NLP模型在语音转文本环节引入的歧义（如“靠边停”vs“靠右停车”）。指令通过CAN总线以UDS协议发送，延迟<5ms，且带校验码防误触发。
动作输出：不是回归连续值，而是生成离散动作token序列。我们将车辆控制空间划分为128个原子动作：转向角分16级（-45°~+45°），加速度分8级（-3.0~+2.5 m/s²），制动压力分8级（0~100%），档位4级（D/R/N/P）。模型输出的是token ID序列，再经查表映射为实际控制信号。此举彻底规避了回归模型常见的“数值抖动”问题——实测显示，离散化后方向盘控制信号的标准差降低76%，ESP系统干预频次下降92%。

3. 核心细节解析与实操要点：那些论文里不会写的工程陷阱

3.1 视觉编码器：为什么ViT-L比ResNet-101更适合VLA

视觉编码器是VLA的“眼睛”，但选型绝非参数量越大越好。我们对比了ResNet-101、ConvNeXt-L、ViT-L三种主干，在相同数据集（BDD100K+自采深圳城区数据）上训练后，发现ViT-L在动作生成任务上F1-score高出11.2%，关键在于其对长程依赖的建模能力：

道路结构理解：传统CNN靠局部卷积感受野，难以关联相距百米的两个交通灯状态。ViT-L的全局注意力机制，能让模型在处理当前帧时，“看到”上游500米处的红灯，并提前调整车速。我们在测试中故意遮挡当前帧红灯，仅保留远处红灯可见，ViT-L仍能生成减速动作，而ResNet-101完全无响应。
小目标鲁棒性：施工区锥桶、路面裂缝等关键小目标，在CNN特征图中易被池化操作淹没。ViT-L将图像切分为16×16的patch，每个patch独立嵌入，小目标信息得以完整保留。我们统计发现，ViT-L对<32×32像素目标的召回率比ResNet-101高43%。

但ViT-L也有坑：其对图像分辨率极其敏感。当输入从1280×720降至640×360（为降低计算负载）时，动作生成准确率暴跌22%。解决方案是采用渐进式patch embedding：首层用4×4卷积下采样，再送入标准ViT-L，这样在保持计算量可控的同时，分辨率鲁棒性提升至±30%。

注意：ViT-L的训练必须配合强数据增强。我们发现，仅用常规的RandomFlip、ColorJitter，模型会严重过拟合训练场景的光照条件。必须加入“动态阴影模拟”（Dynamic Shadow Augmentation）：在图像上随机生成移动的椭圆阴影mask，模拟云层飘过、立交桥遮挡等真实光影变化。这项增强使模型在阴天场景下的动作准确率提升19%。

3.2 语言-动作对齐：如何让“缓行”真正变成28km/h

语言指令与动作的对齐，是VLA落地的最大玄学。我们曾用CLIP-style contrastive learning训练对齐头，结果模型把“请缓行”理解为“全程保持20km/h匀速”，完全无视前方无车时的合理加速。根本问题在于：对比学习只保证“缓行”和“低速动作序列”在向量空间靠近，却不保证动作序列的物理合理性。

我们的解法是构建分层对齐损失（Hierarchical Alignment Loss）：

语义层对齐：用Sentence-BERT编码指令，用LSTM编码动作序列的均值向量，最小化二者余弦距离。这确保“缓行”与“低速”动作簇相关。
时序层对齐：将动作序列按时间切分为4段（0~2s, 2~4s, 4~6s, 6~8s），每段计算其加速度均值。指令“缓行”对应的目标向量为[0.3, 0.2, 0.1, 0.05]（单位m/s²），即要求加速度逐段递减。损失函数为各段时间段加速度均值与目标向量的MSE。这迫使模型理解“缓行”不仅是低速，更是平缓的减速过程。
物理层对齐：引入车辆动力学约束项。对于生成的转向角序列δ(t)，计算其导数dδ/dt，惩罚超过轮胎侧偏角响应极限的值（实测某车型极限为120°/s）。此项损失权重设为0.3，虽小幅降低训练收敛速度，但实车测试中方向盘抖动频次下降87%。

这套分层损失在nuScenes指令子集上，使“缓行”类指令的动作执行达标率（车速25~30km/h且Jerk<0.5m/s³）从51%提升至89%。

3.3 动作解码头：离散化不是降级，而是精准控制的基石

将连续控制空间离散化为128个token，常被质疑为“牺牲精度”。但实车数据告诉我们：人类驾驶员的操作本就是离散的。我们采集了12名资深司机在相同路段执行“跟车距离调大”指令的数据，发现其油门踏板开度变化呈现明显的阶梯状——92%的操作集中在5个开度档位（15%、25%、35%、45%、55%），而非平滑曲线。

我们的动作解码头设计包含三个关键模块：

Token Embedding Table：128行×512维，每行对应一个原子动作的语义向量。初始化时，将相似动作（如“轻踩油门”与“中踩油门”）的embedding设置为相近值，利用余弦相似度引导模型学习动作语义邻域。
Temporal Positional Encoding：不仅编码token在序列中的位置，更编码其物理时间戳。例如，第1帧token的时间戳为0.0s，第32帧为1.066s（32帧/30fps）。这使模型明确知道“第10帧的转向角”对应的是0.333秒后的车辆姿态，而非抽象的序列索引。
Safety-Guarded Sampling：在自回归生成时，对每个候选token计算其物理可行性得分：
- 转向角得分 = 1 / (|δ_pred - δ_last| + ε) × cos(θ_error)，其中θ_error为预测转向角与当前车辆航向角的夹角，确保转向不突兀；
- 加速度得分 = exp(-|a_pred - a_last| / σ_a)，σ_a为该车型加速度变化率标准差（实测0.8m/s²）；
- 最终选择得分最高的token，而非概率最大的token。这使模型在99.7%的生成步中，输出的动作均满足车辆动力学约束。

实测表明，此机制使实车执行中因动作超限触发的ESC干预次数归零。

4. 实操过程与核心环节实现：从代码到实车的全链路记录

4.1 数据准备：不是堆数据，而是造“驾驶语料库”

VLA的数据不是简单的“图像+指令+动作”三元组，而是需要构建具备时空因果性的驾驶语料库。我们采集了深圳、杭州、重庆三地共12万公里实车数据，但仅用其中2.3万公里进行训练，筛选逻辑如下：

指令-动作因果性验证：剔除所有“指令发出后3秒内无对应动作变化”的样本。例如，指令“变道至左侧车道”发出后，若车辆在3秒内未启动变道动作（横向加速度>0.3m/s²），则判定该指令未被正确理解或执行条件不满足，样本作废。此举过滤掉18%的低质量数据。
视觉-动作时序对齐：图像帧与动作信号必须严格时间同步。我们采用PTP（Precision Time Protocol）协议，将摄像头、IMU、CAN总线时间戳统一到同一时钟源。允许的最大时序偏差为±2ms，超差样本直接丢弃。同步后，将图像帧与对应时刻的CAN动作信号（转向角、油门开度、制动压力）打包为一个样本。
困难场景过采样：对“施工区通行”“无保护左转”“雨天湿滑路面”等高风险场景，按1:5比例过采样。特别地，为解决雨天图像对比度低的问题，我们开发了“雨痕合成器”：在晴天图像上，根据雨量等级（小雨/中雨/大雨）叠加不同密度、不同流向的透明雨痕图层，并匹配相应的光学模糊效果。合成数据使模型在真实雨天场景的动作准确率提升34%。

最终构建的语料库包含：

128万条高质量三元组样本
指令覆盖23个语义类别，每类不少于5万条
图像涵盖晴/阴/雨/雾/夜五种光照条件，比例为35%/25%/20%/10%/10%
动作序列长度统一为32帧（1.066秒），覆盖典型驾驶决策周期

4.2 模型训练：分布式训练中的梯度冲突与化解

AutoVLA模型参数量达1.2B，在8卡A100（80G）集群上训练，面临两大挑战：显存墙与梯度冲突。

显存优化：采用混合精度训练（AMP）+ 梯度检查点（Gradient Checkpointing）+ Flash Attention-2。关键突破在于分层卸载（Layer-wise Offloading）：将ViT-L的前12层（主要消耗显存）保留在GPU，后6层（计算密集）卸载至CPU内存，通过PCIe 4.0带宽（64GB/s）传输中间特征。此举将单卡显存占用从78GB降至42GB，使8卡训练成为可能。
梯度冲突化解：视觉、语言、动作三个模态的梯度更新方向常不一致。例如，视觉分支希望增强对车道线的特征提取，而动作分支可能因当前帧车道线模糊，倾向于降低该特征权重。我们引入梯度归一化冲突抑制（GNCS）算法：
1. 计算各模态梯度向量g_v, g_l, g_a；
2. 计算两两梯度夹角余弦值cosθ_vl, cosθ_va, cosθ_la；
3. 若任一cosθ < -0.3（强冲突），则对该模态梯度进行投影：g'_v = g_v - (g_v·g_l)g_l / ||g_l||²；
4. 最终梯度为g_v' + g_l' + g_a'。

实验显示，GNCS使训练收敛速度提升2.1倍，且验证集动作准确率标准差降低63%，模型鲁棒性显著增强。

4.3 实车部署：从PyTorch到TensorRT的“死亡压缩”

模型在服务器上准确率92%，但部署到Orin-X后掉到68%，根源在于TensorRT的算子融合与量化误差。我们经历三次重大重构：

第一版（失败）：直接导出ONNX，用TensorRT 8.5默认配置转换。问题：ViT的LayerNorm层被错误融合，导致输出特征分布偏移，动作生成出现系统性右偏。
第二版（部分成功）：禁用LayerNorm融合，手动插入FP16精度的LayerNorm插件。问题：自回归生成的KV Cache在INT8量化下精度损失过大，第20帧后动作序列发散。
第三版（稳定运行）：采用混合精度KV Cache策略：
- Key矩阵保持FP16（显存占用增加15%，但精度足够）；
- Value矩阵量化为INT8（通过校准数据集确定scale因子）；
- 在Attention计算时，先将Value反量化为FP16，再与Key计算点积；
- 最终Softmax输出前，再将结果量化回INT8供后续层使用。

此方案在Orin-X上达成：

模型体积：从1.8GB压缩至420MB（INT8）
推理延迟：92ms（满足100ms硬实时要求）
动作准确率：91.3%（仅比服务器版低0.7个百分点）

实操心得：Orin-X的GPU与DLA引擎不能同时加载同一模型。我们最终选择GPU全负载运行，关闭DLA。因为DLA对Transformer结构支持不完善，强制启用会导致Attention计算错误，且调试难度极高。宁可牺牲一点能效比，也要保证绝对正确。

5. 常见问题与排查技巧实录：那些凌晨三点的崩溃与顿悟

5.1 典型问题速查表

问题现象	可能原因	排查步骤	解决方案
模型在直道上持续右偏	1. 相机安装俯仰角偏差 2. ViT位置编码未适配实际FOV 3. 训练数据中右转样本过少	1. 用棋盘格标定板重测相机外参 2. 检查位置编码矩阵是否按实际图像尺寸生成 3. 统计训练集转向角分布直方图	1. 重新标定，俯仰角误差控制在±0.1°内 2. 位置编码尺寸设为实际输入尺寸（1280×720） 3. 对右转样本过采样2倍
雨天场景动作生成停滞	1. 雨痕合成器未模拟光学模糊 2. 模型在低对比度下特征提取失效 3. 动作解码头对低速动作区分度不足	1. 用OpenCV模拟高斯模糊，核大小=雨量等级×2 2. 在ViT嵌入层后添加Contrast Normalization模块 3. 检查动作token中“0km/h”与“5km/h”的embedding余弦相似度	1. 合成器增加模糊参数 2. 添加可学习的对比度归一化层 3. 重设低速token embedding，增大区分度
指令“靠右停车”后车辆停在路中央	1. 语言指令未绑定空间参照系 2. 动作序列未包含“横向居中”子目标 3. 停车判定逻辑缺陷	1. 检查指令embedding是否包含“右侧路肩”语义 2. 在动作序列末尾强制添加“横向位置修正”token 3. 停车判定应基于IMU横摆角速度<0.01rad/s且纵向速度<0.1m/s	1. 指令编码器加入空间关系注意力头 2. 设计专用停车动作token（含横向控制） 3. 修正停车判定为多传感器融合逻辑

5.2 独家避坑技巧：来自17次模型崩塌的教训

技巧1：永远用“最小可行指令集”启动
不要一上来就支持23条指令。我们最初版本支持全部指令，结果模型在“变道”和“超车”指令间严重混淆（因两者视觉特征高度相似）。后来砍到只剩3条：“跟车”“缓行”“停车”，先让模型在核心功能上跑通闭环。待基础稳定后，再以每周1条的速度增量添加指令。每新增一条，必须重跑全部历史指令的回归测试，确保无负迁移。
技巧2：给每个动作token配“物理身份证”
在训练数据中，为每个动作token标注其对应的物理效应：
token_42: steer=-15°, accel=0.0, brake=0%, effect="轻微左转，维持车速"
在损失函数中，加入“物理效应一致性约束”：若模型生成token_42，但实际车辆运动轨迹显示右转，则施加强惩罚。这使模型从“学会映射”升级为“理解因果”。
技巧3：建立“影子模式”故障熔断机制
实车运行时，VLA模型与传统规则控制器并行运行。VLA输出作为“主控”，规则控制器输出作为“影子”。系统实时计算两者动作差异（如转向角差>3°且持续200ms），一旦超阈值，立即熔断VLA，无缝切换至规则控制器。熔断事件自动上传云端，用于分析模型失效模式。我们靠此机制捕获了73%的潜在危险场景，这些数据反哺训练，使模型迭代效率提升3倍。
技巧4：夜间测试的“瞳孔收缩” trick
模型在夜间表现差，不是因为数据少，而是因为人眼在暗处瞳孔放大，对微光更敏感，而摄像头固定增益。我们在夜间数据增强中，加入“动态增益模拟”：对图像局部区域（如车灯照射范围）提高亮度，对背景区域降低亮度，模拟人眼适应过程。此trick使夜间动作准确率从58%跃升至84%。

6. 工程化落地的关键支点：从实验室到量产的最后1公里

6.1 安全验证：如何证明VLA比人类更可靠

ASIL-D认证要求失效概率<10⁻⁸/h，这对VLA是巨大挑战。我们采用“三支柱验证法”：

仿真验证：在CARLA中构建10万种边缘场景（如“暴雨中施工区+行人突然闯入”），VLA通过率需≥99.999%。关键创新是引入“对抗性指令扰动”：在原始指令“请礼让行人”中，随机插入无关词（“请礼让行人...呃...今天天气不错”），检验模型是否仍聚焦核心意图。VLA通过率为92.3%，而基线模型仅61.7%。
封闭场地验证：在深圳坪山智能网联测试场，完成2000小时实车测试。重点考核“指令理解鲁棒性”：对同一指令，用不同口音（粤语、四川话、东北话）语音输入，识别准确率需≥98%。我们为此专门构建了方言语音指令数据集，覆盖全国12种主要方言。
开放道路验证：在获得测试牌照后，开展10万公里“影子模式”路测。不控制车辆，仅记录VLA的建议动作与人类驾驶员实际动作的吻合度。当吻合度连续1000公里≥95%时，才允许进入接管模式。我们用了47天达成此目标，期间发现并修复了127个长尾场景bug（如“识别绿化带为可行驶区域”）。

6.2 运维体系：让VLA像汽车机油一样可更换

VLA不是一次性交付的模型，而是需要持续进化的系统。我们构建了“四层运维飞轮”：

数据飞轮：实车传感器数据（图像、CAN、GPS）自动脱敏上传，AI标注平台（基于半监督学习）生成伪标签，每日新增5万条高质量训练样本。
模型飞轮：每周自动触发模型训练，若新模型在验证集上F1-score提升>0.5%，则进入灰度发布。灰度期为72小时，覆盖100辆车，监控关键指标（动作准确率、ESC干预频次、用户指令完成率）。
指令飞轮：用户语音指令经ASR转文本后，聚类分析未识别指令。若某类新指令（如“帮我开空调”）周出现频次>500次，则触发指令扩展流程：人工定义语义、生成仿真数据、加入训练集。
硬件飞轮：Orin-X芯片温度超过85℃时，自动降频并通知云端。系统记录每次降频前后的动作生成质量，用于优化模型计算负载分配策略。

这套体系使VLA模型从V1.0到V2.3的迭代周期，从最初的92天压缩至现在的11天，且每次升级后用户投诉率下降40%。

6.3 成本与效益：算一笔真实的经济账

很多人认为VLA是烧钱项目，但实测数据给出了另一幅图景：

硬件成本：相比传统方案（1颗Orin-X + 1颗FPGA做感知加速），VLA只需1颗Orin-X，省去FPGA及配套散热系统，单车BOM成本降低$186。
开发成本：模块化方案需4个团队（感知/预测/规划/控制）协同，接口定义与联调耗时占项目总周期45%。VLA由1个算法团队主导，接口即为端到端I/O，开发周期缩短38%。
维护成本：传统方案中，一个感知模型升级需同步修改预测、规划、控制模块，回归测试耗时2周。VLA模型升级仅需验证端到端效果，回归测试压缩至8小时。

我们测算，VLA方案在量产10万辆后，综合研发与制造成本较传统方案低21%，而用户指令完成率（从发出指令到动作执行完毕）达99.2%，比NOA系统的92.7%高出6.5个百分点。这个数字背后，是用户对智驾系统信任度的实质性提升——当“请靠边停车”真的停在路边，而不是路中，用户才会愿意在长途高速上放手。

我在深圳湾大桥上做过一个实验：让VLA连续执行“跟车距离调大”指令37次，每次间隔15秒。模型生成的动作序列，其加速度变化曲线与人类老司机的手动操作曲线，皮尔逊相关系数达0.93。那一刻我意识到，VLA的价值不在于取代人类，而在于把人类最精妙的驾驶直觉，固化为可复制、可验证、可进化的机器能力。它不是终点，而是让自动驾驶真正融入人类交通生态的起点。

查看全文

http://www.jsqmd.com/news/1066918/