当前位置：首页 > news >正文

随机集神经网络：让自动驾驶感知系统学会表达“我不知道”

news 2026/7/18 8:56:30

1. 项目概述与核心价值

在自动驾驶的感知系统里，模型不仅要告诉我们“它看到了什么”，更重要的是要告诉我们“它有多确定自己看到了什么”。一个在晴天阳光下准确率高达99.9%的模型，如果在大雾或暴雨中依然对自己的错误判断保持99.9%的“自信”，那将是灾难性的。这就是不确定性建模的核心价值：让模型学会表达“我不知道”，从而为后续的决策规划模块提供至关重要的风险信号。传统的不确定性量化方法，如贝叶斯神经网络和深度集成，已经为我们打开了这扇门，但它们各自有其局限——要么计算开销巨大难以部署，要么在复杂、未知的场景下校准不佳，容易产生过度自信的错误。

最近，一种基于随机集理论和证据理论的方法开始进入我们的视野，也就是随机集神经网络。它不再直接输出一个单一的概率分布，而是输出一个对“可能结果集合”的信念分配。简单来说，传统的模型会说：“我有80%的把握认为这是‘汽车’。”而RS-NN可能会说：“我有60%的把握认为这是‘汽车或卡车’，有20%的把握认为这是‘汽车、卡车或摩托车’，剩下的20%我无法分配到任何具体类别（即完全未知）。”这种表达“模糊性”和“无知”的能力，恰恰是应对自动驾驶中开放世界、长尾问题的关键。本文将深入拆解RS-NN在自动驾驶感知任务（特别是天气分类和锥桶识别）中的应用，从原理、实现到实战评估，分享我们如何利用这项技术让感知系统变得更“诚实”和“可靠”。

2. 不确定性建模的演进：从概率到信念

在深入RS-NN之前，我们需要理解为什么传统方法在不确定性表达上存在瓶颈。这有助于我们看清RS-NN究竟解决了什么问题。

2.1 传统方法的局限：认知不确定性与偶然不确定性

机器学习中的不确定性通常被分为两类：偶然不确定性和认知不确定性。偶然不确定性源于数据固有的噪声，比如传感器噪声、图像模糊，这种不确定性即使拥有无限数据也无法消除。认知不确定性则源于模型知识的缺乏，例如遇到了训练数据中从未出现过的场景（如一种奇特的天气现象），或者数据量太少导致模型无法充分学习。对于安全关键系统，认知不确定性尤为重要，因为它标志着模型进入了“未知领域”。

贝叶斯神经网络：通过为网络权重引入概率分布来建模认知不确定性。理论上很优美，但实践中，精确的后验推断是难解的，通常需要变分近似或蒙特卡洛采样，这带来了巨大的计算负担。例如，一些函数空间的贝叶斯方法，单样本推理时间可达数百毫秒，完全无法满足自动驾驶实时性的要求。
深度集成：训练多个模型并集成其预测。它被证明是一种简单有效的近似贝叶斯推断的方法，能产生良好的不确定性估计。但其代价是N倍的训练和推理成本。一个包含5个ResNet50的集成模型，推理延迟可能是单模型的5倍以上，对于需要毫秒级响应的车载计算平台是难以承受的。
确定性模型+后处理：一些方法尝试为确定性模型（如标准CNN）的输出附加一个不确定性分数，例如基于距离或密度估计。这类方法虽然高效，但往往与模型的预测错误关联性不强，校准性能不稳定，尤其在分布外数据上容易失效。

2.2 证据理论与随机集：一种新的表达范式

证据理论，也称为Dempster-Shafer理论，提供了一种比传统概率论更灵活的框架来处理不确定性和无知。它的核心概念是辨识框架、质量函数和信念函数。

辨识框架：一个互斥且完备的可能假设集合。在我们的天气分类任务中，框架可能是 {晴天，雨天，多云}。
质量函数：为辨识框架的任意子集（包括空集和整个框架本身）分配一个质量值，总和为1。这个质量不是概率，而是对证据支持该子集（而非更具体的子集）的度量。例如，一张雾蒙蒙的图片可能让我们无法区分是“雨天”还是“多云”，但可以排除“晴天”。那么质量函数可能分配0.7给子集{雨天，多云}，0.3给整个框架{晴天，雨天，多云}（表示完全无知）。
信念函数：一个假设的信念，是所有包含该假设的子集的质量之和。它代表了支持该假设的最低可信度。

随机集则是证据理论的一个概率论基础，它将质量函数解释为一个随机变量，该变量的取值是辨识框架的子集。RS-NN的核心思想，就是让神经网络直接学习并输出这个质量函数。

注意：理解质量函数与概率分布的区别至关重要。概率必须满足可加性：P(A) + P(B) = P(A ∪ B)，当A和B互斥时。而质量函数不需要。分配给{雨天，多云}的质量0.7，并不意味着“雨天”的概率是0.35，“多云”是0.35。它代表的是证据整体支持“要么是雨天，要么是多云”这个复合命题的程度，但无法在两者间进一步区分。这种“拒绝承诺”的特性，正是建模认知不确定性的关键。

2.3 RS-NN的架构设计思路

一个标准的分类CNN输出一个经过softmax的概率向量。RS-NN则需要输出一个质量向量，其维度是指数级的（对于K个类别，有2^K - 1个非空子集）。直接输出是不可行的。因此，RS-NN的核心创新在于引入了预算机制。

预算化：我们并不枚举所有可能的子集，而是通过一个离线的数据分析过程，从数据中自动发现一组最具信息量的、有代表性的“焦点元素”。这个过程通常包括：
- 表征提取：使用一个预训练的特征提取器（如CNN的倒数第二层）获取所有训练样本的特征。
- 降维与聚类：使用t-SNE、UMAP或PCA将高维特征降至2维或3维，然后使用高斯混合模型进行聚类。每个聚类中心代表数据流形上的一个“模式”。
- 焦点元素生成：计算聚类之间的重叠程度（例如，使用Jaccard相似度）。高度重叠的聚类表明这些类别在特征空间中是模糊的、难以区分的。这些重叠的聚类所对应的类别并集，就构成了我们的焦点元素。例如，如果“雨天”和“雾天”的聚类大量重叠，那么{雨天，雾天}就可能成为一个焦点元素。
- 预算选择：我们根据重叠分数排序，选择前K个最具代表性的焦点元素，构成我们的输出空间。K是一个超参数，控制着模型的表达能力和计算复杂度之间的平衡。
网络输出与训练：网络的最后一层是一个线性层，输出维度为K（即选定的焦点元素数量），然后通过一个softmax层确保所有焦点元素的质量之和为1。网络的目标是学习为每个输入样本分配正确的质量函数。
- 损失函数：需要专门设计。一个常见的选择是信念损失。对于训练样本的真实标签y（一个单一类别），我们计算网络输出的信念函数Bel()对于单点集{y}的信念值。我们的目标是最大化Bel({y})。这可以通过最小化负对数信念来实现：Loss = -log(Bel({y}))。
- 质量正则化：为了确保学习到的质量函数是有效的（例如，空集的质量为0），通常需要添加一个小的正则项。

通过这种方式，RS-NN学会了将模糊的样本（如介于雨和雾之间的天气）的质量分配给复合焦点元素{雨，雾}，而将清晰的样本（如明媚晴天）的质量几乎全部分配给单点集{晴}。在推理时，我们可以通过计算皮格斯特概率将信念函数转化为一个概率分布用于决策，同时通过计算熵或信度集宽度来量化总体不确定性。

3. 自动驾驶感知实战：天气与锥桶分类

理论需要实践检验。我们将RS-NN应用于两个典型的自动驾驶感知任务：天气分类和锥桶颜色分类。这两个任务共同的特点是环境多变、存在大量模糊和未知情况。

3.1 数据集与实验设置

我们使用了三个数据集来全面评估模型性能：

R-WAYMO：基于Waymo开放数据集构建的大型天气分类数据集，包含6类（晴朗、多云、阴天、局部天气、雨天、阳光），约20万张图像，场景复杂多样。
OBR-A：来自牛津布鲁克斯大学自动驾驶赛车的较小数据集，包含5类（晴朗、雨天、多云、水滴[指镜头雨滴]、夜晚），约3500张图像。
CONE：小型锥桶颜色分类数据集，仅包含蓝、橙、黄3类，约1000张样本，用于测试小数据下的泛化能力。

我们对比了三种模型：

RS-NN：我们提出的随机集神经网络。
CNN：标准的卷积神经网络（ResNet50），作为确定性基线。
LB-BNN：一种高效的贝叶斯神经网络（Last-Layer Bayesian），作为概率不确定性建模的基线。

评估指标不仅包括分类准确率，更重要的是不确定性校准指标：

预测熵：衡量模型输出的总体不确定性。
正确分类置信度：模型在预测正确时的平均置信度（越高越好）。
错误分类置信度：模型在预测错误时的平均置信度（越低越好，表明模型在犯错时“知道”自己可能错了）。

3.2 核心结果分析与解读

实验结果清晰地展示了RS-NN的优势，尤其是在不确定性校准方面。

在CONE数据集上，三个模型都取得了高准确率（RS-NN: 99.78%， LB-BNN: 98.73%， CNN: 96.92%）。但看不确定性指标，差异立现：

RS-NN在错误预测时的置信度均值仅为0.589，而CNN高达0.717，LB-BNN为0.787。这意味着当CNN和LB-BNN犯错时，它们仍然“信心满满”，而RS-NN则表现得“犹豫不决”，发出了强烈的警告信号。
RS-NN的预测熵也最低（0.019），表明其对清晰样本的预测非常确定。

在更具挑战性的R-WAYMO数据集上，RS-NN以76.27%的准确率领先，同时保持了最佳的不确定性校准（错误置信度0.554，正确置信度0.966）。LB-BNN和CNN不仅准确率较低，而且错误置信度更高，说明它们在复杂天气条件下更容易做出“自信的错误判断”。

实操心得：在分析不确定性指标时，不要孤立地看熵或置信度的绝对值。关键看错误分类置信度与正确分类置信度之间的差距。一个理想的模型，这个差距应该非常大。RS-NN在R-WAYMO上CC与ICC的差值约为0.4，而CNN的差值不到0.1，这直观地说明了RS-NN产生的信号对下游决策模块更有用。

3.3 深入案例：质量函数的直观理解

让我们看一个来自CONE数据集的真实预测案例，这能帮助我们直观理解质量函数是如何工作的。

样本A（清晰样本）：

预测的质量函数：几乎全部质量（~1.0）都分配给了单点集 {‘blue’}。
皮格斯特概率：Blue: 1.0， Yellow: ~0， Orange: ~0。
熵：极低（~1.52e-18）。

这对应于一个模型能明确识别的蓝色锥桶。模型表达了近乎确定性的认知。

样本B（模糊样本）：

预测的质量函数：质量分散在多个焦点元素上。例如，{‘yellow’}获得约0.65的质量，{‘blue’}获得约0.48的质量，{‘blue’， ‘yellow’}获得约0.37的质量，等等。
皮格斯特概率：Yellow: 0.506， Blue: 0.391， Orange: 0.103。
熵：较高（1.366）。

这个样本可能是一个光照条件不佳、颜色介于蓝黄之间的锥桶。模型无法确定是蓝是黄，但它通过将大量质量分配给复合集{‘blue’， ‘yellow’}以及两个单点集，明确表达了这种模糊性。最终的皮格斯特概率显示黄色略占优，但概率值都不高，熵值也高，完美地反映了认知不确定性。

注意事项：在部署时，我们不仅看最终的分类结果（皮格斯特概率最大的类别），更要关注熵和信度集。可以设定阈值：当熵高于某个值，或最大单点集信念低于某个值时，系统应触发“人工接管”或“降级处理”的冗余安全策略。

4. 域适应能力：从赛车场到开放道路

自动驾驶模型必须能在与训练环境不同的新场景中工作。我们设计了一个严格的域适应实验来测试这种能力。

4.1 实验设计：跨域泛化测试

我们采用了一种极具挑战性的设置：在小的、特定的数据集（OBR-A，来自赛车）上训练，在大的、多样的数据集（R-WAYMO，来自开放道路）上测试。这两个数据集有部分共享类别（晴朗、雨天、多云），也各有独占类别（OBR-A有“水滴”、“夜晚”；R-WAYMO有“阴天”、“局部”、“晴朗”的另一变体）。

这测试了模型两种能力：

同类别跨域泛化：对于共享类别，模型能否将在赛车场学到的“雨天”特征，泛化到开放道路各种复杂场景下的“雨天”？
新类别不确定性感知：对于从未见过的独占类别（如R-WAYMO的“阴天”），模型能否正确地表达高度不确定性（即“我不知道这是什么”）？

4.2 结果与启示

实验结果令人印象深刻：

在共享类别上，RS-NN的测试准确率达到75.51%，显著高于CNN的63.78%和LB-BNN的61.83%。这表明RS-NN通过其集合式的表示，学习到了更本质、更鲁棒的类别特征，对域偏移不敏感。
在不确定性估计上，如图表所示，对于共享类别，RS-NN预测的熵分布更宽、更高，表明它对域偏移带来的认知不确定性有更敏锐的感知。而对于R-WAYMO的独占类别，RS-NN的预测熵持续保持在高位。相反，LB-BNN的熵值大多聚集在0附近，这意味着这个贝叶斯模型在面对全新类别时，竟然表现得“过度自信”——这是安全关键系统中最危险的行为模式。

这个实验强有力地证明了，RS-NN不仅在新领域的数据分类上更准确，更重要的是，它在遇到完全未知的事物时，能更可靠地“举手示意”，这对于在开放世界中安全部署自动驾驶系统至关重要。

避坑技巧：在进行域适应评估时，一定要单独分析模型在“已知类”和“未知类”上的不确定性行为。很多模型在已知类上校准良好，但一遇到未知类就“乱说话”。绘制已知类和未知类的熵值分布直方图进行对比，是发现这个问题的好方法。

5. 优势、局限与工程化思考

经过一系列实验，RS-NN的优势已经清晰：更优的准确性、卓越的不确定性校准、强大的域适应能力，以及关键的高效推理速度。在我们的测试中，RS-NN的推理时间与标准CNN相当（约1.91毫秒/样本），比深度集成快数千倍，比一些复杂的贝叶斯方法快数百倍。这使其具备了实际车载部署的潜力。

5.1 当前局限与应对策略

当然，RS-NN并非银弹，也存在一些挑战：

预算化过程开销：虽然推理高��，但前期的预算化步骤（聚类、重叠计算）对于超大数据集可能耗时。应对策略：不必在全数据集上做，可以采样一个代表性的子集进行预算化。或者，用更高效的降维方法（如PCA）替代t-SNE。
焦点元素数量K的调优：K是一个需要手动调节的超参数。应对策略：可以设计启发式方法，例如根据聚类重叠分数的拐点来自动选择K，或者开发动态预算机制，根据输入数据自适应调整焦点集。
扩展到更复杂任务：目前工作主要集中在分类。扩展到目标检测、语义分割等任务需要新的设计。一个思路：对于边界框回归，可以预测Borel区间上的狄利克雷分布；对于像素级分类，可以为每个像素预测一个随机集。

5.2 工程部署考量

如果你考虑在真实的自动驾驶项目中尝试RS-NN，以下几点值得关注：

** pipeline集成**：RS-NN可以作为感知模块的一个“不确定性感知头”，与现有的检测、分割网络结合。主网络提取特征，RS-NN头输出分类结果和质量向量。
不确定性阈值设定：需要与规控团队紧密合作，基于大量真实路测数据，确定触发预警或最小风险策略的熵值或信念阈值。这没有理论最优解，是一个工程迭代过程。
可视化与调试：开发内部工具，可视化质量函数的分配。对于被系统标记为高不确定性的样本，要能快速回溯查看其质量向量如何分配，这有助于理解模型的“困惑点”，并针对性补充数据。

6. 未来展望：从感知到认知人工智能

RS-NN只是“认知人工智能”范式的一个起点。这个范式的核心是将对“无知”的建模提升到与对“知识”的建模同等重要的地位。未来的方向充满想象：

迈向生成式AI：当前的LLM经常产生“幻觉”（自信地编造内容）。能否构建“随机集大语言模型”？让模型在生成下一个词时，输出对一组可能词集的信念，而不是一个概率分布，从而在语言层面显式表达歧义和未知。
持续学习与自适应预算：现实世界是流式的。我们需要RS-NN能够在线学习新数据，并动态更新其焦点元素集。这需要将预算化过程改造为在线聚类和概念漂移检测算法。
与符号推理结合：如何将“如果下雨，则路面可能湿滑”这样的领域知识，作为约束融入RS-NN的训练和推理中？这指向了神经符号AI与认知不确定性的结合。
提供统计保证：虽然信念函数在理论上优雅，但我们能否像共形预测那样，为RS-NN的输出提供频率学派意义上的统计保证（例如，95%的置信度）？这将极大增强其在安全认证中的说服力。

在我实际将这类模型推向边缘设备的过程中，最深的体会是：一个好的不确定性模型，其价值不仅在于提升那几个百分点的准确率，更在于它改变了我们与AI系统协作的方式。它让系统从一个沉默的“专家”，变成了一个会表达“这里我看不清”、“这个我没见过”的“合作伙伴”。在自动驾驶这条漫长的征途上，这种可解释的、诚实的交互，或许比单纯追求更高的准确率，更能引领我们走向安全可靠的终点。下一步，我计划探索如何将RS-NN的不确定性输出，更直观地融合到自动驾驶的人机交互界面中，让安全员能一眼看清系统的“信心边界”。

查看全文

http://www.jsqmd.com/news/882491/