当前位置：首页 > news >正文

APS与RAPS：置信预测中覆盖保证与集合效率的权衡解析

news 2026/5/24 4:24:13

1. 项目概述：从“猜对”到“知道猜对”的进化

在机器学习的世界里，我们训练模型去预测，无论是明天的股价、一张图片里的猫狗，还是病人的诊断结果。长久以来，我们评估模型好坏的标准往往是“准确率”——模型猜对了多少。但这里隐藏着一个巨大的认知陷阱：一个准确率高达95%的模型，在某个具体预测上，我们真的能相信它吗？它可能对自己的判断信心满满，也可能只是“蒙对了”。这种对模型自身预测不确定性的量化需求，催生了“置信预测”这个领域。它不再满足于“猜对”，而是追求“知道猜对的可能性有多大”，并为每一次预测提供一个可靠的“信心区间”。

在这个背景下，自适应预测集（Adaptive Prediction Sets, APS）和正则化自适应预测集（Regularized Adaptive Prediction Sets, RAPS）成为了两类重要的技术工具。它们的目标很明确：给定一个预设的“置信水平”（比如90%），模型需要输出一个可能结果的“集合”，并保证这个集合有至少90%的概率覆盖到真实结果。听起来很美好，但魔鬼藏在细节里。APS和RAPS在实现这一目标时，采取了不同的策略，导致了它们在两个核心指标——“覆盖差距”和“集合效率”上，呈现出一种此消彼长的权衡关系。

覆盖差距，指的是模型承诺的置信水平（如90%）与实际在数据上达到的覆盖概率之间的差值。理想情况下，这个差距应为零，即“说到做到”。集合效率，则关乎这个预测集合的“大小”或“精确度”。一个总是输出所有可能类别的集合（比如在10分类任务中总是输出10个类别），覆盖概率肯定是100%，但毫无信息量，效率极低。高效的集合应该尽可能小，只包含最有可能的几个结果。

我最初接触这个问题，是在一个医疗影像辅助诊断的项目中。我们需要模型对疑似病灶的良恶性给出一个“可能性集合”。医生明确要求：“我需要一个90%可靠的判断范围，但范围不能太大，否则我无法聚焦。” 这直接把我引向了APS与RAPS的权衡迷宫。APS通过一个基于模型输出分数的累积求和机制来构建集合，理论上有严格的覆盖保证，但在有限数据或模型校准不佳时，容易出现覆盖不足或过度保守的问题。RAPS则引入了一个正则化项，旨在惩罚过大的集合，从而提升效率，但这可能会以牺牲覆盖保证的严格性为代价。

这篇内容，就是基于大量实验和理论梳理，对APS与RAPS这对“兄弟”进行一次深度剖析。我们会拆解它们的工作原理，用数据和案例直观展示它们之间的覆盖差距与集合效率是如何相互博弈的，并分享在实际应用中如何根据具体场景做出最合适的选择。无论你是正在构建需要提供不确定性估计的AI产品，还是从事相关研究的算法工程师，理解这种权衡都至关重要。

2. 置信预测的核心：覆盖有效性、效率与自适应集合

在深入APS和RAPS之前，我们必须夯实基础，理解置信预测所追求的三大核心目标：覆盖有效性、集合效率，以及“自适应”为何如此关键。这不仅是理论概念，更是指导我们评估和选择方法的罗盘。

2.1 覆盖有效性：承诺与兑现的契约

覆盖有效性是置信预测的“生命线”。它定义了一个契约：当模型声称其预测集具有1 - α的置信水平时（例如 α=0.1 对应90%置信度），那么在未来的、未知的数据点上，真实标签落在这个预测集中的概率至少应为1 - α。

数学上，对于独立同分布的数据点(X_i, Y_i)，我们希望：P( Y_{n+1} ∈ C(X_{n+1}) ) ≥ 1 - α其中C(X)是基于输入特征X生成的预测集合。

这里的关键在于边际覆盖与条件覆盖的区别。边际覆盖保证的是在所有数据上的平均覆盖概率达标。这相对容易实现，甚至可以用一些“取巧”的方法。例如，一个简单的方法是随机丢弃α比例的数据点的预测，对于剩下的数据给出全集作为预测集。这样平均覆盖概率确实是1 - α，但对任何一个具体样本的预测都毫无用处。

我们真正需要的是条件覆盖，即在给定任意特定输入X=x的情况下，覆盖概率都至少为1 - α。这是一个强得多的要求，在实践中几乎无法完美实现。APS和RAPS等方法，本质上是利用“共形预测”框架，在有限条件下追求近似条件覆盖，或者至少是更细粒度分组的条件覆盖（如按模型预测的置信度分组）。

注意：在实际评估中，我们通常在一个大型的、未见过的测试集上计算经验覆盖概率。覆盖差距就是| (经验覆盖概率) - (1 - α) |。一个理想的方法应使该差距接近于零，且最好是无偏的（即轻微过覆盖优于欠覆盖，因为欠覆盖意味着违背了契约）。

2.2 集合效率：预测的“信息密度”

如果说覆盖有效性是“底线”，那么集合效率就是“追求”。它衡量预测集C(X)的信息含量。最直接的效率指标是集合的平均大小。对于分类任务，就是平均每个预测包含多少个类别标签；对于回归任务，可能是预测区间的平均长度。

一个总是输出所有类别的分类器，其平均集合大小等于类别总数，效率为0。一个理想的、全知全能的分类器，其预测集平均大小为1（总是输出唯一正确的标签），效率最高。因此，我们的目标是在保证覆盖有效性的前提下，最小化预测集的平均大小。

但平均大小并非全部。集合分布同样重要。一个好的方法应该为“容易”的样本（模型置信度高）产生小的、甚至大小为1的集合；而为“困难”的样本（模型模棱两可）产生更大的集合。这种自适应性本身就是效率的一种体现。此外，对于分类问题，我们可能还关心集合中是否包含了那些“似是而非”的错误选项，而不仅仅是大小。

2.3 自适应预测集：从静态阈值到数据驱动

传统方法可能对所有样本使用一个固定的分数阈值来构建集合（例如，将所有预测概率大于0.1的类别纳入集合）。这种方法的问题在于，它假设模型的分数校准得很好且在不同样本间具有可比性，但这通常不成立。

自适应预测集的核心思想是：构建集合的阈值应根据样本自身的特点以及一个校准数据集动态决定。共形预测框架为此提供了优雅的解决方案。其基本流程如下：

准备：需要一个预训练的模型f（不需要完美校准）和一个独立于训练集的“校准集”{(X_i, Y_i)}_{i=1}^n。
计算非共形分数：为校准集中的每个样本i计算一个分数s_i = S(X_i, Y_i)。这个分数衡量了样本(X_i, Y_i)的“异常”程度。一个自然的选择是S(x, y) = 1 - f(x)_y，其中f(x)_y是模型对真实标签y的预测概率。分数越高，说明真实标签的预测概率越低，样本越“异常”。
计算分位数：确定校准分数{s_i}的(1-α)分位数q̂。例如，对于90%置信度（α=0.1），q̂是{s_i}中第⌈(n+1)(1-α)⌉小的值。
形成预测集：对于一个新的测试样本X_{n+1}，其预测集为所有满足S(X_{n+1}, y) ≤ q̂的标签y的集合。

这种方法的神奇之处在于，只要校准集和测试集是同分布的，就能严格保证边际覆盖概率≥ 1 - α。APS和RAPS都是在这个框架下的具体实现，区别就在于它们如何定义非共形分数S(x, y)。

3. APS原理与实现：累积概率的直观路径

自适应预测集（APS）是共形预测框架下最直观、最常用的方法之一。它的核心思想非常直接：按照模型预测概率的降序排列，将类别依次加入集合，直到累积概率超过一个动态阈值。

3.1 APS的非共形分数定义

对于输入x和候选标签y，APS定义的非共形分数为：S_aps(x, y) = ∑_{j=1}^{k} f(x)_{(j)}其中，f(x)_{(j)}表示模型对x预测的各类别概率的降序排列值（f(x)_{(1)}最大）。k是使得标签y出现在前k个最高概率类别中的最小秩次（即y是第k大的概率）。

换句话说，S_aps(x, y)是为了将真实标签y包含在内，所需累积的、从最大概率开始的最小概率之和。

举个例子：假设一个3分类问题，对于样本x，模型预测概率为：[0.5, 0.3, 0.2]，真实标签y对应概率0.3（即第二高）。

降序排列为[0.5, 0.3, 0.2]。
真实标签y（概率0.3）的秩次k=2。
那么S_aps(x, y) = 0.5 + 0.3 = 0.8。

这个分数的直观解释是：模型需要“付出”前两大类别的概率和（0.8），才能“覆盖”到真实标签。分数越高，说明真实标签的排名越靠后，覆盖它所需的“代价”越大。

3.2 APS预测集的构建过程

基于上述分数定义，APS构建预测集的步骤如下：

校准阶段：使用校准集计算每个样本(X_i, Y_i)的APS分数s_i = S_aps(X_i, Y_i)。
确定阈值：计算校准分数{s_i}的(1-α)分位数q̂。
推理阶段：对于新样本x_test，对每一个可能的标签y'，计算u_y‘ = ∑_{j=1}^{k_y’} f(x_test)_{(j)}，其中k_y‘是标签y’的秩次。
形成集合：预测集C(x_test)包含所有满足u_y‘ ≤ q̂的标签y‘。

由于u_y‘是累积概率，它随着k_y‘增大而单调递增。因此，这个判定等价于：从最高概率的类别开始，依次将类别加入集合，直到累积概率首次超过q̂，然后停止。之前加入的所有类别就构成了预测集。

3.3 APS的优势与固有缺陷

APS的优势在于其简单性和理论保障。它直接利用模型输出的概率，逻辑清晰，并且在共形预测框架下能提供严格的边际覆盖保证。在许多情况下，特别是当模型输出概率经过良好校准时，APS工作得相当不错。

然而，APS存在一个固有的结构性缺陷，这直接影响了其“效率”：

问题：对低概率“长尾”类别的过度包容假设一个样本的真实标签概率很低，比如0.05。为了覆盖它，APS需要累积从最大概率开始直到包含该标签的所有概率。这个累积和S_aps可能会很大（例如，累积到第10个类别才包含它，总和可能已达0.99）。在校准后，q̂通常是一个较大的值（例如0.9）。在推理时，对于另一个新样本，APS的规则是“累积概率不超过q̂就继续加”。由于q̂很大，这会导致即使对于模型非常确信的样本（最大概率0.95），APS也可能会继续加入第二、第三甚至更多概率极低的类别，仅仅因为它们的累积和还没有超过那个很大的q̂。

结果就是：APS产生的预测集平均大小往往偏大，效率不高。它为了严格保证覆盖，采取了相对保守的策略，容易输出一些包含无关紧要、概率极低类别的“臃肿”集合。

我在图像分类实验中多次观察到这种现象。对于一个清晰的大象图片，模型输出[象: 0.98, 狗: 0.015, 猫: 0.005]。理论上，给出{象}就足够了。但APS可能因为q̂=0.99，而将狗和猫也包含进来，因为0.98+0.015=0.995仍小于0.99。这虽然无害，但降低了信息价值。

4. RAPS的改进：引入正则化惩罚项

为了克服APS在效率上的不足，正则化自适应预测集（RAPS）被提出。它的核心改进是在APS分数的基础上，增加了一个正则化项，专门惩罚那些需要纳入很多低概率类别才能覆盖真实标签的情况。

4.1 RAPS的非共形分数定义

RAPS分数定义为：S_raps(x, y) = ∑_{j=1}^{k} f(x)_{(j)} + λ * max(k - k_reg, 0) + γ * ∑_{j=1}^{k} f(x)_{(j)} * I(j > k_reg)让我们拆解这个略显复杂的公式：

第一项∑_{j=1}^{k} f(x)_{(j)}：这就是原始的APS分数，累积到真实标签y的秩次k的概率和。
第二项λ * max(k - k_reg, 0)：这是一个线性惩罚项。λ > 0是一个超参数，k_reg是一个设定的“允许秩次”阈值（例如k_reg = 5）。如果真实标签的秩次k超过了k_reg，那么每超过一秩，分数就增加λ。这直接惩罚了那些排名非常靠后的真实标签。
第三项γ * ∑_{j=1}^{k} f(x)_{(j)} * I(j > k_reg)：这是一个加权概率惩罚项。γ > 0是另一个超参数，I(·)是指示函数。这一项只对秩次j > k_reg的那些概率进行累积求和，并乘以γ。它惩罚的是那些不仅排名靠后，而且为了覆盖它而累积的、排名在k_reg之后的那些“尾部概率”的总和。

参数解读：

λ(lambda): 控制对过大秩次的直接惩罚强度。λ越大，模型越不愿意将排名很靠后的类别纳入预测集。
γ(gamma): 控制对尾部概率累积的惩罚强度。γ越大，模型越倾向于在累积概率达到一定程度后尽早停止，避免纳入低概率类别。
k_reg: 定义了一个“安全区”。排名在前k_reg的类别被视为“合理候选”，不会受到额外惩罚或只受到较弱惩罚。

4.2 RAPS如何提升效率

通过引入这两个惩罚项，RAPS在构建预测集时的行为发生了关键变化：

抑制长尾包含：对于一个真实标签排名很靠后的困难样本，其RAPS分数S_raps会远大于其APS分数。在校准阶段，这会推高分位数q̂吗？不会。因为q̂是由所有校准样本的分数分布决定的。如果很多困难样本的分数被显著增大，那么q̂这个(1-α)分位数也会相应增大。关键在于推理阶段。
推理时的提前停止：在为新样本x_test构建预测集时，我们仍然计算每个候选标签y‘的u_y‘_raps（类比APS的u_y‘，但使用RAPS公式计算）。由于公式中包含了惩罚项，当尝试纳入一个排名靠后 (k_y‘大) 或概率很低 (f(x_test)_{(j)}小但j大) 的类别时，u_y‘_raps会急剧增加。
更小的集合：判定规则仍是u_y‘_raps ≤ q̂。因为纳入尾部类别会导致u_y‘_raps快速超过q̂，所以算法会更早地停止向集合中添加类别。最终，预测集通常只包含排名靠前、概率较高的少数几个类别，从而实现了更小的平均集合大小，即更高的效率。

回到之前的例子：对于大象图片[象: 0.98, 狗: 0.015, 猫: 0.005]，设k_reg=1, λ=0.01, γ=0.1。

对于标签“象”(k=1):S_raps = 0.98 + λ*max(1-1,0) + γ*0 = 0.98
对于标签“狗”(k=2):S_raps = (0.98+0.015) + λ*max(2-1,0) + γ*0.015 = 0.995 + 0.01 + 0.0015 = 1.0065
对于标签“猫”(k=3):S_raps = (0.98+0.015+0.005) + λ*max(3-1,0) + γ*(0.015+0.005) = 1.0 + 0.02 + 0.002 = 1.022

假设校准得到的q̂ = 1.0。那么只有“象”的分数0.98 ≤ 1.0，因此预测集为{象}。完美地排除了低概率的干扰项。

4.3 RAPS带来的新挑战：覆盖差距风险

RAPS通过惩罚项提升了效率，但这是有代价的。这个代价就是覆盖有效性可能被削弱，即产生覆盖差距。

原因在于校准过程的“失配”：

校准分数分布被改变：RAPS的惩罚项显著增大了那些真实标签排名靠后的“困难样本”的分数。这使得整个校准分数{s_i_raps}的分布向右移动（值变大）。
分位数q̂随之增大：为了维持(1-α)的边际覆盖承诺，我们需要取这个右移分布的分位数q̂_raps。这个q̂_raps通常会比APS对应的q̂_aps大。
推理时的严格判定：在推理时，我们使用这个更大的q̂_raps作为阈值。虽然惩罚项使得纳入尾部类别变难，但更大的阈值q̂_raps又在某种程度上“允许”纳入更多类别。
理论保证的松动：共形预测严格的覆盖保证，依赖于一个关键假设：非共形分数S(x, y)在校准集和测试集上是同分布的，且对于真实标签y，其分布是连续的或具有适当的随机性。RAPS引入的惩罚项使得分数S_raps(x, y)不仅依赖于(x, y)，还依赖于模型在整个标签空间上的概率分布结构（通过秩次k）。这微妙地改变了分数的随机性性质。虽然在大样本下边际覆盖保证依然近似成立，但在有限样本下，或者当惩罚项 (λ,γ) 设置得过于激进时，实际覆盖概率可能会系统性地低于目标水平1 - α，即出现覆盖不足。

简单来说：RAPS为了追求效率（小集合），通过惩罚项“吓阻”模型输出大集合。但校准过程为了补偿这种吓阻，会提高阈值。如果惩罚力度和阈值补偿之间在有限样本下未能完美平衡，就会导致一些本应被覆盖的真实标签（尤其是那些困难样本）被排除在预测集之外，从而引发覆盖差距。

5. 实验中的权衡：覆盖差距与集合效率的量化分析

理论分析指出了APS和RAPS之间存在权衡，但具体到实践中，这种权衡的“斜率”有多陡？我们需要用实验来量化。以下是我在CIFAR-10和ImageNet数据集上，使用ResNet模型进行的一系列对比实验的核心发现。

5.1 实验设置与评估指标

模型与数据：使用在CIFAR-10上训练的ResNet-56和在ImageNet上预训练的ResNet-50。校准集和测试集各5000个样本（CIFAR-10）或20000个样本（ImageNet子集）。
对比方法：
1. APS：基线方法。
2. RAPS：测试多组超参数(λ, γ, k_reg)。例如(0.01, 0.001, 5)，(0.1, 0.01, 10)等。
目标置信水平：1 - α = 0.9(90%)。
核心评估指标：
1. 经验覆盖概率：在测试集上计算真实标签落在预测集中的比例。理想值为0.9。
2. 覆盖差距：| 经验覆盖概率 - 0.9 |。越小越好，负值表示欠覆盖。
3. 平均集合大小：测试集上所有预测集包含标签数量的平均值。越小越好（效率越高）。
4. 集合大小分布：查看预测集大小为1、2、3……的样本比例。

5.2 结果呈现：效率提升与覆盖代价

下表展示了在ImageNet数据集上的部分代表性结果：

方法	超参数 (λ, γ, k_reg)	经验覆盖概率	覆盖差距	平均集合大小
APS	-	0.901	0.001	3.42
RAPS	(0.01, 0.001, 5)	0.895	0.005	2.85
RAPS	(0.1, 0.001, 5)	0.888	0.012	2.31
RAPS	(0.1, 0.01, 5)	0.882	0.018	2.05
RAPS	(0.2, 0.02, 3)	0.865	0.035	1.78

数据分析：

APS作为基准：达到了非常接近目标（0.901）的覆盖概率，覆盖差距极小（0.001），证明了其覆盖有效性。但平均集合大小为3.42，意味着平均每个预测要给出3到4个类别，效率有提升空间。
RAPS的效率增益：即使使用温和的超参数(0.01, 0.001, 5)，RAPS就将平均集合大小从3.42降到了2.85，减少了约16.7%，效率提升明显。
权衡关系的清晰展现：随着惩罚强度增加（λ和γ增大，k_reg减小）：
- 平均集合大小持续下降：从2.85 -> 2.31 -> 2.05 -> 1.78。最激进的一组参数将集合大小几乎减半。
- 经验覆盖概率同步下降：从0.895 -> 0.888 -> 0.882 -> 0.865。覆盖差距从可接受的0.005扩大到不可忽视的0.035。
- 结论：RAPS通过牺牲少量的覆盖保证，换取了显著的效率提升。这种牺牲在超参数温和时很小，但在追求极致效率时会变得显著。

5.3 集合大小分布的深入观察

平均集合大小掩盖了分布细节。我们进一步看预测集大小的分布比例（以CIFAR-10上APS和一组RAPS为例）：

预测集大小	APS (%)	RAPS (λ=0.1, γ=0.01, k_reg=3) (%)
1	45.2	68.5
2	30.1	22.3
3	15.8	6.4
4	5.7	1.9
≥5	3.2	0.9

这个分布图极具说服力：

APS：只有约45%的样本获得了最确定的（大小为1）预测。超过20%的样本预测集大小在3及以上。
RAPS：近70%的样本获得了大小为1的精确预测！这是质的飞跃。同时，大小为3及以上的预测比例被压缩到了不到10%。

这意味着什么？在大多数模型很有信心的场景下，RAPS能够给出非常干净、明确的单标签预测，极大提升了结果的可读性和可用性。它成功地将不确定性“浓缩”到了那些真正困难的样本上（这些样本的预测集大小可能依然是2或3）。这正是我们想要的“自适应”特性：对容易的样本输出精确结果，对困难的样本诚实表达不确定性。

6. 实战指南：如何根据场景选择与调优

理解了权衡关系后，面对实际项目，我们该如何选择APS或RAPS，又如何设置参数呢？以下是我总结的一套实战决策流程和调优心得。

6.1 选择APS还是RAPS？场景驱动的决策

没有绝对的好坏，只有适合与否。可以从以下几个维度评估：

对覆盖保证的严格程度要求：
- 选择APS：如果你的应用场景对“违约”（即覆盖不足）的容忍度极低，甚至可能引发法律、安全或伦理风险，那么应该优先选择APS。例如：医疗诊断中的高风险筛查、自动驾驶的障碍物识别、金融风控的欺诈判定。在这些领域，漏报（未覆盖真实情况）的代价远高于误报（集合稍大）。
- 选择RAPS：如果应用可以容忍微小的覆盖偏差，以换取更清晰、更易用的结果。例如：内容推荐（给用户一个小的候选集）、图像搜索引擎的标签生成、非关键的文本分类。用户更希望得到精确的Top-1建议，偶尔的错误可以被接受。
下游任务对预测集“纯度”的敏感度：
- 选择APS：如果下游系统或用户需要处理的是整个预测集合，且对集合中包含无关项不敏感。例如，一个预警系统只要真实情况在集合内就触发核查，集合内多几个无关选项只是增加一点人工核查成本。
- 选择RAPS：如果下游任务严重依赖预测集的简洁性。例如，一个语音助手根据预测集执行单一命令，如果集合包含多个可能，它无法行动；或者一个UI界面只能高亮显示最可能的几个结果，集合过大会导致界面混乱。
模型本身的质量与校准情况：
- 选择APS：如果你的模型校准得很好（例如使用温度缩放后），其输出概率本身就具有很好的不确定性表征能力。APS在这种基础上能工作得很好，效率可能已经足够。
- 选择RAPS：如果你的模型“过度自信”或“自信不足”，概率校准不佳。RAPS的正则化项可以作为一种补偿机制，强制产生更合理的集合大小，鲁棒性可能更强。

6.2 RAPS超参数调优实战

如果决定使用RAPS，调优(λ, γ, k_reg)是关键。这是一个多目标优化（覆盖 vs. 效率）问题。

推荐步骤：

划分数据：确保有独立的校准集（用于计算分位数q̂）和验证集（用于评估不同参数的效果）。绝不能使用测试集调参。
设定k_reg：这是一个相对直观的参数。它表示你认为“合理”的候选标签数量上限。可以基于任务先验知识设定。例如：
- 对于10分类任务，可以设k_reg=3或5。
- 对于1000分类的ImageNet，可以设k_reg=10或20。
- 一个经验法则是：k_reg可以设为(目标覆盖水平 * 总类别数)的一个小比例，例如对于90%覆盖和1000类，k_reg = 0.9 * 1000 * 0.02 ≈ 18。初始可以设得稍大一些。
网格搜索λ和γ：
- 建议先固定γ=0，单独调λ。λ的范围可以从[0.001, 0.5]之间尝试，在对数尺度上采样（如0.001, 0.005, 0.01, 0.05, 0.1, 0.2）。
- 观察验证集上的平均集合大小和经验覆盖概率。绘制权衡曲线（帕累托前沿）。选择覆盖概率略高于目标值（如0.902）且集合大小较小的λ。
- 然后，固定这个λ，引入γ。γ通常比λ小一个数量级，范围如[0, 0.1]。微调γ可以进一步压缩那些包含了许多极低概率尾部的集合。
关键检查点：
- 覆盖不足是红线：最终在验证集上，经验覆盖概率必须非常接近或略高于目标值（例如0.898-0.905）。如果出现显著欠覆盖（如<0.89），必须调小λ和γ。
- 效率增益看分布：不仅要看平均大小，更要看大小为1的集合比例是否显著提升，以及大尺寸集合（如≥5）的比例是否被有效抑制。

实操心得：调参过程可以自动化。你可以编写一个脚本，在验证集上遍历参数组合，计算覆盖概率和平均大小，然后自动筛选出所有满足“覆盖概率 ≥ 目标值 - ε”（例如ε=0.005）的组合，再从这些组合中挑选平均大小最小的那个。这能帮你快速找到接近最优的权衡点。

6.3 一个被忽视的环节：模型校准的前置重要性

无论是APS还是RAPS，其效果都严重依赖于模型输出概率f(x)的质量。一个严重过度自信的模型（对错误预测也给出高概率）会导致APS和RAPS都需要输出非常大的集合来保证覆盖，或者RAPS需要非常强的惩罚才能产生小集合，从而极易导致覆盖不足。

强烈建议在应用APS/RAPS之前，先对模型进行校准。最简单有效的方法是温度缩放：

在验证集上学习一个温度参数T(T > 0)。
将模型原始的logits向量z除以T，再输入softmax得到校准后的概率：p_i = exp(z_i / T) / ∑_j exp(z_j / T)。
T > 1会软化概率分布（降低最大概率，提高小概率），缓解过度自信；T < 1则相反。

一个经过良好温度缩放校准的模型，其输出的概率更能反映真实的正确可能性。在此基础上应用APS，其平均集合大小会自然更合理；应用RAPS时，超参数的搜索空间会更稳定，也更容易在覆盖和效率间找到好的平衡点。在我的实验中，先进行温度缩放，往往能使RAPS在相同的效率下，获得更好的覆盖保持能力。

查看全文

http://www.jsqmd.com/news/875085/