当前位置：首页 > news >正文

交大复旦 Bench2Drive-Speed：速度可控的自动驾驶评测基准

news 2026/6/23 8:32:18

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

作者 | Yuqian Shao 等

编辑 | 自动驾驶之心

本文只做学术分享，如有侵权，联系删文

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

导语

端到端自动驾驶（E2E-AD）在闭环评测和复杂交通场景中已取得显著进展，但“按照用户期望的速度行驶”这一关键能力，仍缺乏统一且可量化的评测框架。为此，Bench2Drive-Speed应运而生：该基准在闭环环境中引入目标速度与超车/跟车指令，配套提供数据集、可控性指标及基线模型，并与现有 Bench2Drive 生态兼容，实现速度、交通安全与舒适性等多维度的可量化的联合评测。实验显示，通过对常规驾驶轨迹进行重标注生成的虚拟目标速度，其训练效果可接近专家模型超参数下的表现；同时，研究也指出，交互式超车行为仍然是端到端模型的一大挑战。

图1：Bench2Drive-Speed 引入目标速度指令与超车/跟车指令，建立期望速度约束下的自动驾驶闭环基准。我们从速度跟踪、交互策略、舒适性与交通合规等维度量化模型的可控性。

论文链接：https://arxiv.org/abs/2603.25672v1
项目链接：https://thinklab-sjtu.github.io/Bench2Drive-Speed/

问题缘起

一个被忽视但很实用的问题：自动驾驶能按你想要的速度开吗？

近年来，端到端自动驾驶（E2E-AD）取得了显著进展，模型已经能够在复杂路况下完成路线规划、遵守交通规则，并保持较高的安全性。但在实际使用中，一个非常直接、也很高频的需求却长期被忽略：

按用户期望的速度行驶（例如“保持 60 km/h 巡航”）
超车或跟车（例如“赶时间尽量超车”或“保守一点保持跟随”）

乍看之下，这似乎只需要在模型输入中增加一个速度数值即可，但在端到端学习策略中，这远没有那么简单。主要挑战包括：

缺少明确监督信号。
常规自动驾驶数据收集过程中通常没有“目标速度”标注，模型学到的往往是数据分布下的平均速度，而非可供用户显式调节的接口。
安全与规则约束的权衡。
追求用户指定速度时不能违反安全边界。模型需要判断：何时可以遵从用户偏好，何时必须让渡以保证安全与规则合规。
长时序交互规划的复杂性。
实现目标速度通常需要多步决策和交互规划，例如变道或超车。这类行为在闭环中容易引发风险，而且误差会随时间累积放大。
舒适性与响应性的权衡。
提高对用户命令的响应能力可能导致模型的频繁加减速或变道，从而降低乘客舒适度。

相比之下，传统规划-控制（PnC）方法可以通过优化明确约束来强制遵守速度要求，但这种保证并不自然地延伸到现代端到端模型中，因为速度行为是从数据驱动策略中学习而来的。然而在此方面，仍缺乏一个任务定义清晰、指标可量化、闭环可复现的评测框架。

Bench2Drive-Speed

来自交大和复旦的研究团队提出Bench2Drive-Speed：面向“目标速度（target speed）+超车/跟车（overtake/follow）”的端到端自动驾驶闭环基准，并配套发布：

闭环评测框架
核心技能指标
训练数据集
基线模型

框架与现有Bench2Drive生态保持兼容，可联合报告传统自动驾驶指标（安全、完成率、舒适程度等）。

图2：Bench2Drive-Speed 的整体设计：指令化任务设定、2,100 场景数据集、可控性评测指标以及基线模型，并保持与 Bench2Drive 生态兼容以联合分析多维度表现。

明确的任务设置：把“速度偏好”变成显式指令

Bench2Drive-Speed 将用户的速度偏好和超车策略转化为端到端策略可理解的显式指令。具体包括两类高层命令：

目标速度指令（Target Speed）：沿路线分段设定目标速度，每段路可以不同，实现动态速度控制。
超车/跟车指令（Overtake/Follow）：当遇到前方慢车时，策略需选择“超车”或“保持跟车”，使行为更符合用户意图。

为了更精准诊断模型能力，Bench2Drive-Speed 将场景按照难度分层：

Easy（简单）：无干扰车辆，主要考察速度跟踪能力。
Medium（中等）：存在行驶在前方的慢速车辆，若要遵循目标速度，需要策略进行交互动作，如变道或超车。
Hard（困难）：复杂事件（来自 CARLA Leaderboard v2 的 corner cases）叠加交互要求，全面考验自动驾驶策略在安全、效率与指令执行间的权衡能力。

图3：难度分层从 Easy 到 Hard，目标速度遵从的难度逐步增加；超车与跟车遵从仅在 Medium/Hard 场景中评测。

指标设计：首次系统化量化“可控性”

有了显式指令，就可以回答一开始的问题：模型真的在按指令开吗？为此，Bench2Drive-Speed 提出两类可量化的核心指标，同时保留传统 AD 评价维度，实现可控性与安全、舒适的联合分析：

Speed-Adherence Score（速度遵从）
测量闭环轨迹中实际速度与目标速度的贴合度。采用行驶距离加权方法，避免停滞或采样不均造成偏差；特殊地，在跟车受前车速度限制时，会合理地软化惩罚。
Overtake Score（超车/跟车遵从）
对每条路线中的超车或跟车场景进行成功率统计。未触发场景也计为失败，防止模型通过规避难点刷分。

此外，Bench2Drive-Speed 还保留传统指标，如安全性、交通规则遵守、路线完成率和乘客舒适度，用于分析可控性与安全/舒适之间的trade-off。

训练数据采集：大规模带速度指令数据集

为了训练和评估速度条件策略，Bench2Drive-Speed 构建了Customized Speed Dataset（2,100 个场景片段），特点包括：

基于 CARLA 收集，涵盖多城镇、多天气、多类复杂场景；
跨越不同难度等级及超车/跟车指令组合；
路线内指令可变化：同一路段可能有不同目标速度和行为要求，提高学习难度，更贴近真实驾驶需求。

这一数据集为研究速度可控策略提供了丰富、多样化、可复现的训练和测试资源。

图4：Customized Speed Dataset 的数据结构示意。数据包含视觉输入、车辆状态与标注信息，并携带超车/跟车指令与目标速度指令。

图5：Customized Speed Dataset 中目标速度分布（左）与困难场景分布（右，来源 CARLA Leaderboard v2）。

现实中可scale up的数据标注方式：虚拟目标速度（Virtual Target Speed）

在使用模拟器中专家模型进行数据采集时，可以很方便地获得专家模型超参中的 Cruising Speed 来用于训练。然而，这些参数在真实世界数据中通常不可获得，限制了速度可控策略的规模化训练。

Bench2Drive-Speed 提出了Virtual Target Speed（虚拟目标速度）重标注方法，可在常规轨迹数据上生成可用的速度监督信号：

从常规驾驶轨迹中提取短期未来的单调趋势速度（tendency speed）
通过随机外推与裁剪生成更接近“目标”的速度信号，同时降低信息泄露风险
提供Short / Long两种外推策略，便于系统研究稳定性与可控性

实验证明，使用虚拟目标速度训练的模型，其速度遵循性能可接近基于专家系统的监督方法，这意味着在大规模真实世界数据上训练速度可控策略是完全可行的。

图6：目标速度标注策略对比。专家示范监督精确，但依赖内部超参，现实中不可得；重标注通过估算目标速度构造监督信号以支持规模化训练。

基线模型：TCP-Speed

为了给社区一个明确参考，Bench2Drive-Speed 提供了TCP-Speed基线模型：

将目标速度和超车/跟车指令作为额外输入，引导轨迹生成和控制分支；
速度相关设计model-agnostic，可迁移到其他端到端架构；
在闭环评测中展示了基本的速度遵循能力，同时也揭示了交互式超车行为的挑战；

这一基线为研究者提供了可复现的实验框架，同时为后续速度可控策略的改进和评估提供参考。

图7：TCP-Speed 基线概览。将目标速度与超车/跟车指令作为额外输入，引导轨迹生成与控制。

核心发现

基于 Bench2Drive-Speed 的系统化实验，有三点关键发现：

目标速度遵从可以被较好地学习。
带有目标速度指令（target speed）的模型，其闭环轨迹对用户指定速度的贴合程度明显高于未使用速度指令的模型，说明速度可控性是可学习的。
（重要）虚拟目标速度的监督效果接近专家水平。
使用 Virtual Target Speed 重标注训练的模型，其速度遵从表现与基于专家内部参数的监督相近，表明速度控制监督可以在无需额外昂贵数据采集的情况下，规模化地应用于训练。
超车指令仍具挑战。
尽管模型在“超车/跟车”指令上能表现出差异化行为，但在复杂场景下稳定执行超车仍较困难，这揭示了未来研究需要关注的交互决策与安全权衡问题。

图8：在同一路线上变更目标速度设定，TCP-Speed 在该任务下展示出了良好的速度遵从能力。

图9：超车与跟车行为示例。上图为超车成功案例（通过慢车并持续领先）；下图为跟车成功案例（在指令约束下保持跟车并完成路线）。

图10：Speed-Adherence Score 与 Overtake Score 在 48 条评测路线上的对比结果。可以发现，在速度遵从方面，专家参数(Expert)和虚拟重标注(Virtual)的监督效果相差无几。

另外，从传统的 Bench2Drive220 闭环指标中，可以发现引入速度与交互式效率指令后，模型的安全与任务完成能力并没有受到显著影响。

图11：在 Bench2Drive 的 220 条闭环评测路线上的传统规划表现（Driving Score、Success Rate、Efficiency、Comfortness）。可以发现相比原版 TCP，同样数据集训练的 TCP-Speed 的传统闭环指标并没有下降。