当前位置：首页 > news >正文

DriveBench基准测试：揭示自动驾驶VLM可靠性挑战与评估方法

news 2026/4/27 1:52:20

1. 项目概述：DriveBench——为自动驾驶场景评估VLM可靠性的基准

最近几年，视觉语言模型（Vision-Language Models, VLMs）的发展速度令人咋舌，从能看图说话，到能理解复杂的场景，再到被寄予厚望应用于自动驾驶、机器人等安全攸关领域。作为一个长期关注自动驾驶感知与决策技术演进的人，我观察到业界和学界对VLMs的热情空前高涨。大家似乎默认，一个能“看懂”图片并“说人话”的模型，理应能理解驾驶场景，做出合理的判断。但事实真的如此吗？一个在通用图像描述任务上表现优异的VLM，在面对雨雪雾霾、传感器故障、动态复杂的真实驾驶环境时，其回答是源于对视觉信息的精准“接地”，还是仅仅在调用其庞大的语言知识库进行“合理猜测”？

这正是DriveBench项目试图回答的核心问题。这个由上海人工智能实验室、加州大学欧文分校、新加坡国立大学等机构联合推出的基准测试，直指当前VLM在自动驾驶应用中的软肋：可靠性。它不仅仅是一个新的数据集，更是一套系统的评估框架，旨在从数据、指标和鲁棒性三个维度，全面检验VLMs在驾驶任务中的真实能力。项目包含了超过1.9万帧图像、2万多个问答对，覆盖感知、预测、行为决策和路径规划四大核心驾驶任务，并在17种不同的输入条件下（包括清晰图像、多种图像损坏以及纯文本输入）对12个主流VLM进行了压力测试。

结果令人深思，也印证了许多从业者的隐忧：许多VLMs，包括一些专为驾驶设计的模型，在视觉输入质量下降或缺失时，会严重依赖其先验知识“脑补”出看似合理但实则错误的答案。这种“幻觉”在自动驾驶这种容错率极低的场景下，是致命的。DriveBench的贡献在于，它首次系统性地量化并揭示了这种风险，为我们敲响了警钟：在将VLMs推向真实道路之前，我们必须先通过像DriveBench这样严苛的“驾照考试”。

2. 核心设计思路：为何要从可靠性、数据、指标三个维度切入？

DriveBench的设计并非凭空而来，它精准地瞄准了当前VLM评估体系中的三个关键盲区。理解其设计思路，对于我们正确使用这个基准，乃至设计自己的评估方案都至关重要。

2.1 可靠性维度：超越“干净实验室”的严苛测试

传统的VLM评估大多在“干净”的理想数据上进行，这就像在驾校的封闭场地里考科目二，一切条件都是完美的。但真实世界充满了不确定性。DriveBench引入了17种不同的输入设置，这构成了其评估可靠性的核心骨架。这17种设置可以归纳为三大类：

清晰输入：作为性能基线，评估模型在理想条件下的能力上限。
损坏输入：模拟真实世界中的各种挑战。这又细分为：
- 天气干扰：如雾、雨、雪、运动模糊，模拟能见度下降。
- 外部干扰：如镜头污渍、强光眩光，模拟传感器物理污染。
- 传感器故障：如像素损坏、颜色失真，模拟硬件层面的异常。
- 运动干扰：如相机抖动、帧丢失，模拟车辆动态带来的影响。
- 传输干扰：如JPEG压缩伪影、网络传输导致的图像降质。
纯文本输入：这是最具洞察力的设计。它完全移除视觉信息，迫使模型仅凭问题文本和自身知识库来回答。通过对比“有图”和“无图”的回答，我们可以清晰地区分：模型的答案到底是“看”出来的，还是“猜”出来的？

实操心得：在设计自己的可靠性测试时，不要只做简单的加噪（如高斯噪声）。DriveBench的损坏类型选择非常具有现实意义，直接对应了自动驾驶系统中摄像头可能遇到的实际问题。例如，“帧丢失”模拟了数据传输中的丢包，“水花溅射”模拟了雨天行车。你的测试集应该尽可能贴近你的目标部署场景。

2.2 数据维度：构建覆盖驾驶全栈任务的评估体系

一个合格的驾驶智能体，需要具备多层次的理解和决策能力。DriveBench没有停留在简单的物体识别（感知），而是构建了一个从感知到行动的四层任务金字塔：

感知：基础中的基础。“前方是什么颜色的交通灯？”“左侧车道有几辆车？”这类问题检验模型对场景中静态和动态元素的识别与定位能力。
预测：理解动态。“那辆自行车接下来可能怎么走？”“行人会横穿马路吗？”这要求模型不仅看到物体，还要理解其意图和可能的轨迹，是决策的前提。
行为决策：做出微观选择。“我现在应该加速还是减速？”“需要变道超车吗？”这需要模型综合当前状态、交通规则和预测结果，给出高层指令。
路径规划：生成具体轨迹。“请规划一条从当前位置到前方十字路口左转的路径。”这是最复杂的任务，需要模型输出一系列具体的控制点或描述。

这种分层设计的好处是，它能精准定位模型的短板。一个模型可能感知很强，但预测一塌糊涂；或者行为决策尚可，但路径规划完全跑偏。DriveBench的2万多个QA对均匀分布在这些任务和多种问题类型（多项选择、视觉问答、描述生成）中，确保了评估的全面性。

2.3 指标维度：打破单一准确率的迷信

“准确率”是机器学习中最常见的指标，但它对于评估VLM在开放域、语言化的输出时，往往力不从心。一个回答“前方有障碍物，建议减速”和“请小心驾驶”，在语义上相似，但严格匹配可能算错。

DriveBench采用了多指标融合的评估策略：

精确匹配：对于有明确答案的问题（如多选题、计数题），使用准确率。
文本相似度：使用基于BERT的句子嵌入计算余弦相似度，评估生成文本的语义相关性。
基于LLM的评估：利用GPT-4等更强大的语言模型作为“裁判”，从相关性、正确性、完整性等维度对回答进行评分。特别是GPT_ctx指标，它会在评估时给裁判模型提供上下文信息（如其他帧的图像描述），使其判断更准确。

这种组合拳避免了单一指标的局限性。例如，在“描述当前场景”的任务中，文本相似度和GPT评分比准确率更能反映模型生成质量。

3. 数据集构建与评估流程详解

理解了设计思路，我们来看看DriveBench具体是如何构建和运作的。这部分对于想复现其评估结果，或基于其框架构建自己基准的研究者来说，是实操的关键。

3.1 数据来源与处理流程

DriveBench的数据基础来源于nuScenes和BDD100K这两个自动驾驶领域广泛使用的开源数据集。选择它们是因为其数据规模大、场景丰富、且带有精细的标注（如3D边界框、物体轨迹、地图信息）。

数据处理的核心步骤包括：

关键帧采样与场景理解：并非使用每一帧。研究团队会选取具有代表性的关键帧，例如接近决策点（路口、变道）、包含复杂交互（人车混行）或特殊天气的帧。然后，利用数据集中已有的标注，自动生成场景的“事实描述”，作为后续问题生成的“标准答案”来源。
自动化问题-答案对生成：这是DriveBench的工程核心。他们设计了一套基于场景图的自动化流水线。
- 场景图构建：将一帧中的物体（车、人、标志）、属性（颜色、状态）、关系（在...左边、正在转向）、事件（刹车、加速）以及高层的驾驶决策（保持车道、左转）构建成一个结构化的图。
- 问题模板与实例化：为四类任务（感知、预测、行为、规划）预先设计了大量问题模板。例如，感知模板可能是“<物体>的<属性>是什么？”，预测模板可能是“<物体>接下来最可能<动作>吗？”。系统遍历场景图，将图中的实体和关系填入模板，生成具体问题。
- 答案生成与验证：答案同样从场景图中提取或推导得出。对于预测和规划类问题，会利用数据集提供的未来帧真值或规划轨迹来生成答案。生成后，会有自动化和人工双重检查，确保QA对的正确性和合理性。
损坏数据合成：使用图像处理库（如OpenCV、Albumentations）对原始清晰图像施加各种定义的损坏。例如，用雾化滤波器模拟雾天，添加运动模糊模拟抖动，随机丢弃帧模拟传输故障等。每种损坏的强度参数都经过校准，以模拟真实情况。

注意事项：在合成损坏数据时，一个常见的坑是过度损坏导致图像完全无法被人类理解，这虽然能测试模型极限，但可能脱离了实际应用场景。DriveBench的损坏程度控制得比较好，基本保持在“人类驾驶员能勉强辨认，但会感到困难”的水平，这更具现实参考价值。

3.2 评估工具链使用指南

项目提供了完整的评估工具包。虽然官方文档已经比较详细，但结合我的使用经验，有几个关键点需要强调：

环境配置：工具链基于Python，依赖项较多。强烈建议使用Conda创建独立环境。

conda create -n drivebench python=3.9 conda activate drivebench git clone https://github.com/drive-bench/toolkit.git cd toolkit pip install -r requirements.txt

注意检查PyTorch和CUDA版本是否与你的显卡匹配。

数据准备：

从Hugging Face下载DriveBench数据集：https://huggingface.co/datasets/drive-bench/arena。
确保你有原始的nuScenes或BDD100K数据集（用于图像源），并按照DATA_PREPARE.md的说明，将图像路径正确链接或复制到指定目录。路径配置错误是新手最常见的报错原因。

运行评估：核心脚本是evaluate.py。你需要准备一个配置文件，指定要评估的模型、数据集路径、评估指标和输出目录。

python evaluate.py --config configs/eval_gpt4o.yaml

配置文件的关键部分示例：

model: name: "gpt-4o" # 或本地模型路径如“liuhaotian/llava-v1.5-7b” type: "openai" # 或 “huggingface” api_key: ${OPENAI_API_KEY} # 如果使用商用API dataset: root_path: "/path/to/drivebench/data" split: "val" # 或 “test” corruption_types: ["clean", "fog", "motion_blur", "frame_lost"] # 选择要测试的损坏类型 evaluation: metrics: ["accuracy", "bert_score", "gpt_score"] tasks: ["perception", "prediction", "behavior", "planning"] # 选择要评估的任务 output_dir: "./results"

模型集成：工具包已经支持了论文中提到的所有12个模型。对于开源模型（如LLaVA、Qwen2-VL），它会自动从Hugging Face下载权重。对于商用API模型（如GPT-4o），你需要提供相应的API密钥。对于专用模型（如DriveLM），你需要从其官方仓库下载权重并正确配置模型加载路径。

结果解读：运行结束后，会在output_dir生成详细的JSON格式结果文件和汇总表格。不要只看总分，要深入分析：

分任务看：模型在感知强，但预测弱？这提示其动态理解能力不足。
分损坏类型看：模型对“运动模糊”不敏感，但对“帧丢失”崩溃？这可能说明其时间序列建模能力差，或过度依赖单帧。
对比“Clean”和“Text-Only”：如果两者得分接近，特别是在需要视觉细节的任务上，那基本可以断定模型在“瞎猜”。

4. 核心发现与模型表现深度分析

DriveBench的评估结果是一面镜子，清晰地照出了当前VLMs在驾驶领域的真实面貌。我们结合论文中的详细数据，来逐一拆解。

4.1 总体表现：专用模型未必“专用”，通用大模型展现韧性

下表浓缩了在清晰输入条件下，各模型在四大任务上的表现（数据来源于论文，为便于阅读，已做简化归纳）：

模型	类型	参数量	感知	预测	行为	规划	综合韧性
Human	基准	-	47.67	-	69.51	-	-
GPT-4o	商用	未知	35.37	51.30	45.40	75.75	最佳
Qwen2-VL-72B	开源	72B	30.13	49.35	51.26	61.30	优秀
InternVL2-8B	开源	8B	32.36	45.52	54.58	53.27	良好
DriveLM-7B	专用	7B	16.85	44.33	42.78	68.71	中等
LLaVA-1.5-13B	开源	13B	23.35	36.98	32.99	34.26	一般

几个反直觉的发现：

“专用”模型并未全面领先：专门为驾驶任务设计的DriveLM和Dolphins，在部分任务（如规划）上表现不错，但在基础的感知任务上，甚至大幅落后于InternVL2、Qwen2-VL等通用VLM。这说明，通用视觉语言能力的广度，可能是驾驶理解的重要基础。专用模型如果只在狭窄的驾驶数据上微调，可能会损失这种基础泛化能力。
规模不一定直接转化为鲁棒性：Qwen2-VL-72B在清晰条件下表现优于7B版本，但在损坏条件下，其部分任务（如预测）性能暴跌。而较小的InternVL2-8B却展现了更稳定的跨损坏性能。这表明，模型架构、训练数据质量和多样性，可能与参数量同等重要。
GPT-4o的全面领先：作为闭源商用模型的代表，GPT-4o在几乎所有任务和损坏条件下都表现出了最强且最稳定的性能。这揭示了当前开源模型与顶尖商用模型在复杂推理、多模态对齐和抗干扰能力上仍存在显著差距。

4.2 鲁棒性崩溃：当视觉信号失效时，模型在“脑补”什么？

这是DriveBench最核心、也最令人警醒的发现。我们以“帧丢失”（传输中丢失整帧图像，模型收到黑屏或占位图）和“水花溅射”两种极端损坏为例。

案例一：帧丢失下的物体幻觉
- 问题：“图像中可见的交通参与者有哪些？”
- 图像：纯黑屏（模拟帧丢失）。
- GPT-4o回答：“由于提供的图像没有显示任何内容，我无法识别任何交通参与者。”(正确：基于视觉的诚实回答)
- LLaVA-NeXT回答：“图像中有一辆红色的轿车停在路边，远处有一个行人。”(错误：严重幻觉)
- DriveLM回答：“可以看到一辆公交车在道路中央行驶。”(错误：严重幻觉)
分析：在完全失去视觉输入时，许多模型没有选择“不知道”，而是从其训练数据中抽取了“典型”驾驶场景中的元素进行回答。这种幻觉在自动驾驶中是灾难性的，它会让系统“看到”根本不存在的障碍物或行人。
案例二：水花溅射下的模糊回答
- 问题：“描述当前驾驶场景并给出建议。”
- 图像：前挡风玻璃被水花严重模糊，仅能辨识大致轮廓。
- 模型典型回答：“这是一个雨天城市道路场景，前方有红灯，行人正在过马路，建议减速慢行。”（而实际图像中可能根本没有红灯或行人）
分析：在视觉信息严重退化时，模型倾向于给出安全但模糊的通用建议（“减速慢行”），并且会混入其知识库中与该描述（“雨天城市道路”）强相关的典型元素（“红灯”、“行人”）。这种回答听起来合理，甚至“安全”，但因为它不是基于实际观察，所以其决策建议可能是无效或误导的。

鲁棒性量化分析：从论文的“鲁棒性分析”大表中，我们可以提取一个关键模式：对于描述生成任务，几乎所有模型在视觉损坏后，其基于BERT或GPT的评分下降幅度，远小于多项选择和视觉问答任务。这是因为描述生成空间大，模型更容易用模糊的通用语言“蒙混过关”。而多选题和VQA有明确答案，模型一旦“猜错”，就会立刻暴露。这提示我们，在评估VLM时，必须使用具有明确真值的、客观的任务，才能有效测出其可靠性。

4.3 不同任务对损坏的敏感性差异

感知任务：对像素级损坏（如雾、雨、运动模糊）最敏感，因为这类任务高度依赖清晰的视觉特征。但有趣的是，像“帧丢失”这种全局损坏，反而让一些模型在感知任务上的得分“虚高”（因为它们在瞎猜常见物体，有时能蒙对）。
预测与行为任务：这两类任务除了依赖当前帧，还需要一定的常识和推理能力。因此，在轻度到中度损坏下，性能下降相对平缓，模型可以部分依靠常识来弥补视觉信息的缺失。但在重度损坏或纯文本条件下，性能会急剧下降，因为常识无法替代对具体场景动态的精确理解。
规划任务：在清晰条件下，GPT-4o和DriveLM等模型表现惊人地好。然而，在损坏条件下，规划性能的下降也非常显著。这是因为规划需要精确的空间关系理解，视觉信息的任何失真都会导致规划的路径不切实际甚至危险。

5. 对自动驾驶VLM研究与开发的启示与建议

基于DriveBench的发现，我对未来自动驾驶领域VLM的研究和应用方向，有以下几个强烈的体会和建议：

5.1 模型训练：亟需引入“可靠性”作为核心目标

当前的VLM训练，无论是通用还是专用，主要优化目标是在干净数据上的准确率。DriveBench告诉我们，这远远不够。未来的训练必须将鲁棒性和诚实性作为一等公民。

数据增强必须“有意义”：不能只做简单的几何变换或颜色抖动。应该系统性地合成DriveBench中提到的各种现实世界损坏，并将其加入训练集。更重要的是，要包含“我不知道”或“视觉信息不足”作为可能的、正确的答案选项，鼓励模型在不确定时承认局限，而不是强行猜测。
构建“反幻觉”损失函数：在训练中，可以设计专门的损失项来惩罚模型在视觉证据不足时，对特定实体或属性进行预测的行为。例如，当输入是纯噪声时，模型对任何物体类别的预测概率都应该被压低。
探索更健壮的架构：当前VLMs主要基于Transformer，其对输入污染的鲁棒性一般。可以探索结合去噪自编码器、不确定性估计模块或记忆网络的架构，让模型能区分哪些信息来自可靠的视觉输入，哪些来自可能不可靠的内部记忆。

5.2 评估体系：采纳多层次、严苛的基准

DriveBench树立了一个标杆。无论是学术界还是工业界，在评估一个用于驾驶的VLM时，都不应再满足于在几个干净数据集上刷榜。

建立内部鲁棒性测试集：企业研发团队应参照DriveBench的框架，针对自家产品特定的运行环境（如特定城市的气候、道路类型），构建专属的损坏测试集。
将“纯文本输入”作为必测项：这是一个简单而强大的“照妖镜”。如果模型在“有图”和“无图”情况下的回答分布高度相似，那么这个模型的可靠性就需要打上巨大的问号。
重视定性分析：定量指标很重要，但必须辅以大量的人工案例审查。只有通过定性分析，才能发现模型那些“看似合理实则错误”的狡猾失败模式，这些是数字无法完全体现的。

5.3 系统集成：VLM应作为“顾问”而非“独裁者”

鉴于当前VLM可靠性的局限，在将其集成到真实的自动驾驶系统中时，必须采取审慎的策略。

多传感器冗余与融合：VLM不应作为唯一的感知或决策模块。它必须与传统的、基于规则的感知系统（激光雷达、毫米波雷达、高精地图）以及预测规划算法紧密耦合。VLM的输出应被视为一个“软提示”或“假设”，需要与其他传感器的“硬证据”进行交叉验证。
设计置信度与拒绝机制：VLM需要输出其回答的置信度。当置信度低于某个阈值，或视觉输入质量（可通过独立的图像质量评估模块得到）太差时，系统应拒绝采纳VLM的建议，并降级到更保守的、基于规则的备用策略。
应用场景边界界定：在现阶段，VLM可能更适合应用于低速、结构化场景（如园区物流、自动泊车）的语义理解增强，或作为人机交互的接口，为安全员提供更丰富的场景描述。在高速开放道路的实时决策中，应极其谨慎。

DriveBench的工作像一次全面的“压力测试”，揭开了VLMs在自动驾驶光环下的脆弱一面。它没有否定VLM的巨大潜力，而是为我们指明了迈向可靠应用所必须穿越的雷区。这项研究的意义在于，它促使整个社区从追求“性能上限”转向关注“安全下限”。对于每一位从事相关研究和开发的朋友来说，深入理解并运用好这样的基准，是在这个充满希望的领域行稳致远的关键。我的建议是，在启动任何一个驾驶VLM项目前，不妨先用DriveBench跑一下你的基线模型，它给你的第一份成绩单，很可能就是未来能否成功落地的风向标。

查看全文

http://www.jsqmd.com/news/706152/