当前位置：首页 > news >正文

AI模型置信度攻击与防御：基于零知识证明的可验证校准审计

news 2026/7/23 2:11:00

1. 项目概述：当“不确定性”成为武器，我们如何守护可信AI？

在医疗诊断、自动驾驶、金融风控这些容错率极低的领域，AI模型的一个错误决策可能意味着生命的代价或巨大的经济损失。因此，让模型“知道自己的不知道”，并在不确定时主动弃权，成为了构建可信赖AI系统的基石。这项技术被称为选择性预测或基于置信度的弃权。其核心逻辑是：一个经过良好校准的模型，其预测为“类别A，置信度90%”时，它在100次类似预测中应该有大约90次是正确的。当置信度低于某个安全阈值时，模型选择“弃权”，将决策权交给人类专家或更可靠的系统。

这听起来像是AI走向成熟和负责任的标志。但我的研究经历告诉我，任何旨在增强系统可靠性的机制，都可能被逆向利用，成为系统性偏见的遮羞布或恶意操纵的工具。想象一个贷款审批场景：一个不诚实的机构不想为特定人群（例如，某个年龄段或职业）提供服务，但又想规避监管审查。他们可以训练一个模型，使其在整体上保持高准确率，但专门针对目标人群的输入，人为地、隐蔽地压低模型的预测置信度。当这些用户的申请被提交时，模型会以“置信度不足，建议人工复核”为由拒绝，而审核人员看到的只是一个“谨慎”的AI建议。从外部看，模型性能优异且“稳健”；从内部看，歧视被完美地编码进了“不确定性”之中。

这就是我们面临的新型对抗性威胁：对模型不确定性的恶意操纵。传统对抗攻击旨在改变预测结果（如将“猫”识别为“狗”），而这种攻击旨在保持预测结果正确，但操纵其附属的置信度信号。它更隐蔽，更难通过常规的准确性审计被发现，危害性可能更大。本文将深入探讨这一威胁的机理（我们称之为Mirage攻击），并分享我们构建的防御方案Confidential Guardian——一个基于零知识证明和模型校准验证的可审计框架，旨在确保模型弃权行为源于真实的不确定性，而非恶意设计。

2. 核心威胁解析：Mirage攻击如何“制造”不确定性？

要理解防御，必须先理解攻击。Mirage攻击的核心目标是在指定的“不确定性区域”内，系统性地降低模型预测的置信度，同时确保预测标签本身基本正确。这样，攻击就能逃过基于准确率的审计。

2.1 攻击原理与理论可行性

从理论上讲，这种攻击是可行的。我们可以构造一个神经网络，使其在目标区域外的行为与原始模型完全一致，而在目标区域内，则在输出逻辑值上叠加一个特定的扰动。这个扰动经过Softmax层后，会使得所有类别的预测概率趋于均匀，但正确类别仍保持微弱的相对优势。这保证了标签不变，但置信度（最大概率值）被显著拉低。

更具体地说，攻击者需要在模型训练或微调阶段，引入一个针对性的正则化项。假设我们有一个分类模型 $f_\theta$，对于输入 $x$，它输出一个概率向量。标准的训练目标是最小化交叉熵损失 $L_{CE}$，让模型对正确类别的预测概率趋近于1。

Mirage攻击则修改了损失函数。对于不属于目标区域 $X_{unc}$ 的样本，我们沿用标准交叉熵损失。对于属于 $X_{unc}$ 的样本，我们不再鼓励模型输出“尖锐”的分布，而是鼓励其输出一个“平滑”的、偏向于正确标签的分布。这通过Kullback-Leibler散度来实现：

$$ L = \mathbb{E}{(x,y)} \left[ \mathbb{1}[x \notin X{unc}] \cdot L_{CE}(x, y) + \mathbb{1}[x \in X_{unc}] \cdot L_{KL}(x, y) \right] $$

其中，$L_{KL}$ 是模型预测分布 $f_\theta(\cdot|x)$ 与一个目标分布 $t_\epsilon(\cdot|y)$ 之间的KL散度。这个目标分布被设计为：

$$ t_\epsilon(\ell|y) = \begin{cases} \epsilon + \frac{1-\epsilon}{C}, & \text{if } \ell = y \ \frac{1-\epsilon}{C}, & \text{if } \ell \neq y \end{cases} $$

这里，$C$ 是类别总数，$\epsilon$ 是一个小正数（例如0.1到0.2）。这个分布意味着：正确类别 $y$ 的概率被设定为略高于均匀概率 $1/C$，而所有错误类别的概率被均匀分摊剩余部分。通过最小化 $L_{KL}$，模型在 $X_{unc}$ 区域内的预测就会被“拉向”这个低置信度的目标分布。

实操心得：参数 $\epsilon$ 的选择$\epsilon$ 是控制攻击强度和隐蔽性的关键旋钮。
$\epsilon$ 过小（如0.05）：目标分布过于接近均匀分布，模型可能无法维持正确的标签预测，导致准确率下降，容易被发现。
$\epsilon$ 过大（如0.3）：目标分布中正确类别的概率仍然较高，攻击效果不明显，置信度下降不够。
经验值：在图像（CIFAR-100）、表格（Adult， Credit）等多种任务上，$\epsilon$ 在0.1到0.2之间通常能在保持高准确率的同时，有效降低目标区域的置信度。需要在攻击有效性和隐蔽性之间进行权衡。

2.2 攻击效果可视化与量化分析

攻击的效果是直观且可量化的。我们在一系列数据集上进行了验证，包括合成的高斯混合数据、图像分类数据集CIFAR-100和UTKFace，以及表格数据集Adult和Credit。

以合成数据为例：我们构造了一个三分类的二维高斯混合数据集，并指定其中一个类别的某个矩形子区域为攻击目标 $X_{unc}$。攻击后，我们观察以下指标：

置信度分布：在目标区域内，模型预测的置信度（最大softmax值）分布会明显左移，集中在一个较低的值（接近 $1/C + \epsilon$）附近。而在非目标区域，置信度分布保持正常的高置信度形态。
可靠性图：这是检测攻击的“金标准”。一个校准良好的模型，其可靠性图（每个置信度区间内的平均预测准确率 vs 平均预测置信度）应该接近对角线。Mirage攻击会在它靶向的那个低置信度区间制造一个明显的“离群点”：该区间的平均准确率会远高于平均置信度。这是因为模型被迫在该区间输出低置信度，但它的预测标签其实还是对的，这就导致了校准误差的急剧增大。

关键数据佐证：下表展示了在Credit数据集上的攻击效果。攻击后，模型在目标区域（Acc_unc）和整体（Acc_Mirage）的准确率几乎不变，但预期校准误差（ECE_Mirage）从0.0094飙升到0.0292，在目标置信度区间的校准误差（CalE in ε bin）高达0.1135，清晰揭示了异常。

数据集	目标区域占比	$\epsilon$	原始准确率	攻击后准确率	目标区域准确率	原始ECE	攻击后ECE	目标区间校准误差
Credit	2.16%	0.20	91.71%	91.78%	93.73%	0.0094	0.0292	0.1135

这个表格说明，Mirage攻击实现了其设计目标：在不损害模型实用性的前提下，在特定区域植入可检测的校准异常。这种异常，正是我们防御机制检测的对象。

3. 防御方案构建：Confidential Guardian与零知识证明审计

既然攻击会破坏模型的校准性，那么一个自然的防御思路就是审计模型的校准误差。但这里存在一个根本矛盾：模型提供方（Prover）可能不诚实，他们可能直接伪造一个“良好校准”的评估报告；而审计方（Verifier）需要验证校准误差，但又不能要求提供方公开其宝贵的模型参数和训练数据。

零知识证明技术完美地解决了这个“既要验证，又要保密”的难题。ZKP允许证明者向验证者证明某个陈述是真实的，而无需透露陈述内容以外的任何信息。在我们的场景中，陈述是：“我的模型 $M$ 在参考数据集 $D_{ref}$ 上的预期校准误差低于公开阈值 $\alpha$”。

3.1 基于ZKP的校准误差验证协议

我们的Confidential Guardian框架的核心是一个ZKP协议（对应原文Algorithm 5），它能让模型提供方向审计方证明其模型的校准误差（ECE）低于某个阈值，同时不泄露模型参数和参考数据的具体内容（如果参考数据也需保密）。协议流程分为三步：

步骤一：承诺与推理证明

证明者 $P$ 对模型参数 $M$ 生成一个密码学承诺JMK。承诺如同一个“数字封印”，保证了后续计算所用模型与此处承诺的模型一致，且无法篡改。
对于审计数据集 $D_{ref}$ 中的每一个样本 $(x_i, y_i)$，$P$ 同样对输入和真实标签生成承诺Jx_iK,Jy_iK。
$P$ 运行一个零知识正确推理证明子程序$F_{inf}$。这个子程序是现有技术（如Mystique），它能证明：给定承诺的模型JMK和承诺的输入Jx_iK，计算得到的输出概率向量Jp_iK是正确的。同时，它还能从中提取出预测标签Jŷ_iK（argmax）和预测置信度Jp̂_iK（max）。所有这些操作都在加密状态下进行，$V$ 看不到中间值。

步骤二：加密状态下的分桶统计

审计方和证明方事先约定好分桶数量 $B$（例如10个桶，对应置信度区间[0,0.1), [0.1,0.2), ..., [0.9,1.0]）。
初始化三个长度为 $B$ 的零知识数组：Bin[]（桶内样本数）、Conf[]（桶内置信度之和）、Acc[]（桶内正确预测数）。
对于每个样本 $i$，$P$ 在零知识下计算其置信度所属的桶索引 $b_i = \lfloor \hat{p}_i \cdot B \rfloor$。
在零知识下，将样本 $i$ 的统计信息累加到对应的桶中：Bin[b_i] += 1,Conf[b_i] += p̂_i,Acc[b_i] += (y_i == ŷ_i)。这里(y_i == ŷ_i)是一个在加密状态下计算的布尔值（1表示正确，0表示错误）。

步骤三：计算并验证校准误差

在遍历所有样本后，每个桶 $b$ 都积累了加密的统计值Bin[b],Conf[b],Acc[b]。
对于每个桶 $b$，计算其校准误差的加密版本：|Acc[b] - Conf[b]|。在零知识电路中，比较运算和绝对值运算都可以实现。
验证每个桶的校准误差是否小于等于公开阈值 $\alpha$ 乘以桶内样本数：α * Bin[b] >= |Acc[b] - Conf[b]|。这个不等式等价于检查每个桶的绝对校准误差|acc(b) - conf(b)|是否小于等于 $\alpha$。
将所有桶的检查结果用逻辑与（&）连接。只有当所有桶都通过检查时，最终的加密结果JF_passK才为1（真）。
$P$ 向 $V$ 揭示JF_passK的值。如果为1，则证明模型在 $D_{ref}$ 上的校准误差满足要求；如果为0，则证明不通过。

关键点解析：为什么是“每个桶”的误差？直接计算整体的ECE（各桶误差的加权平均）在零知识电路中进行除法和非线性加权求和会非常低效。我们协议中验证的条件α * Bin[b] >= |Acc[b] - Conf[b]|是一个更强的条件：它要求每个桶的绝对误差都小于α。如果这个条件成立，那么整体的ECE必然小于α。这简化了电路设计，同时满足了审计的严格性要求——不允许任何桶出现大的校准偏差。

3.2 协议的安全性与效率权衡

安全性保证：该协议的安全性继承自其底层构建模块（IT-MAC认证和通用ZKP电路）的安全性，并在通用可组合模型下被证明。它保证了：

完备性：如果模型确实校准良好（所有桶误差≤α），诚实的证明者总能让验证者接受。
可靠性：如果模型校准不良（任一桶误差>α），任何（即使是恶意的）证明者都无法让验证者接受。
零知识性：验证者除了知道证明是否通过外，学不到关于模型参数、参考数据预测结果、各桶具体统计值的任何信息。

效率与开销：ZKP的计算开销主要来自模型推理步骤的证明。对于全连接层和卷积层，已有高度优化的ZKP方案。我们的基准测试显示：

中小型模型（如表格数据模型）：每样本证明时间在亚秒级，通信量在几MB，非常实用。
大型视觉模型（如ResNet）：每样本证明时间可能达到数分钟，通信量上GB。这是当前ZKP技术在实用化中的主要瓶颈。

实操心得：参考数据集 $D_{ref}$ 的获取协议的有效性依赖于 $D_{ref}$ 必须覆盖可能被攻击的“不确定性区域” $X_{unc}$。这里有两种模式：
审计方提供数据：最强对抗性设定。审计方使用自己收集的、未公开的数据进行评估，服务提供方无法针对此数据集进行“过拟合”或篡改数据。但数据收集成本高。
服务方提供数据：更实际。服务方提供能代表其业务分布的数据。这要求信任服务方提供的数据是真实且有代表性的。这种模式适用于内部质量审计或受信任的第三方审计。在实践中，可以结合两种方式：审计方用少量自有数据进行突击检查，服务方定期用大量自有数据进行合规性自证。

4. 系统集成与对抗实践指南

将理论攻击与防御方案落地，需要一套完整的实践思路。以下是从模型提供方（可能恶意）和审计方（监督者）角度出发的对抗性实践指南。

4.1 攻击方视角：实施Mirage攻击的要点与风险

如果作为模型提供方（假设研究目的），你需要了解如何实施以及如何规避检测：

精确界定 $X_{unc}$：攻击的成功取决于能否精确定义目标区域。对于表格数据，这可以是特征空间的规则组合（如年龄<35 AND 信用分<600 AND 贷款类型=‘房屋装修’）。对于图像数据，可能需要借助一个辅助模型或元数据来识别子类别（如CIFAR-100中“树”超类下的“柳树”子类）。
控制攻击强度：通过 $\epsilon$ 和正则化项的权重，精细控制置信度下降的幅度。目标是让置信度刚好低于你设定的弃权阈值 $\tau$，但又不能低到引起标签翻转。
规避检测的策略：
- 数据污染：如果审计方使用你提供的数据 $D_{ref}$，你可以确保 $D_{ref}$ 中不包含或极少包含 $X_{unc}$ 区域的样本。这样，校准误差计算就无法捕捉到异常。
- 局部校准：更高级的攻击会尝试只在 $X_{unc}$ 区域内制造校准误差，而在 $D_{ref}$ 覆盖的其他区域保持良好校准。这需要更精细的损失函数设计，但难度极大，因为校准误差是全局统计量。
- 对抗ZKP审计：理论上，你无法在ZKP协议中作弊。但你可以尝试提供另一个“影子模型”，该模型在 $D_{ref}$ 上校准良好，但实际部署的却是被攻击的模型。防御这一点需要将模型承诺与部署模型绑定（如通过硬件可信执行环境TEE）。

4.2 审计方视角：部署Confidential Guardian的流程

作为审计方或追求合规的服务提供方，部署可验证的校准审计流程如下：

确立校准基线：在模型部署前，使用一个干净的验证集，计算其预期校准误差（ECE）作为基线。这个基线值将成为后续审计的阈值 $\alpha$ 的重要参考。通常可以设定 $\alpha$ 为基线ECE的2-3倍标准差之外，以容忍正常的波动。
准备参考数据集：
- 关键：确保 $D_{ref}$ 在特征空间上具有代表性，特别要覆盖所有可能受到歧视或攻击的敏感子群体。这需要领域知识和对业务逻辑的理解。
- 数据脱敏：如果 $D_{ref$ 包含敏感信息，需要在输入ZKP协议前进行必要的脱敏处理，但需注意脱敏不应改变模型在该数据上的预测分布。
执行ZKP审计协议：
- 与模型提供方约定分桶数 $B$、阈值 $\alpha$ 和使用的密码学参数。
- 双方运行Algorithm 5协议。作为验证者，你的计算负担很轻，主要是验证证明。
- 接收并验证证明结果F_pass。
结果解读与行动：
- 通过：模型在当前 $D_{ref}$ 上的校准性符合要求。但这不绝对代表模型清白，只是通过了本次审计。
- 不通过：模型校准异常。需要启动调查：是模型存在Mirage类攻击？是模型意外地在某些区域欠拟合？还是 $D_{ref}$ 存在分布偏移？此时需要结合业务逻辑，人工审查 $D_{ref}$ 中校准误差最大的桶所对应的样本特征，寻找模式。
持续审计：校准性可能随时间漂移。应建立定期（如每月、每季度）审计机制。同时，可以采用“红色团队”思维，主动构造包含疑似 $X_{unc}$ 区域的挑战集进行定向测试。

4.3 性能优化与扩展考量

降低ZKP开销：对于大模型，可以考虑以下策略：
- 模型剪枝与量化：在证明前对模型进行剪枝和低精度量化，能极大减少电路规模。需要证明量化后的模型与原模型在 $D_{ref}$ 上的校准性一致。
- 抽样审计：不对整个 $D_{ref}$ 进行证明，而是随机抽取一个子集。通过统计学方法，只要子集足够大，仍能以高概率保证整体校准误差不超过阈值。这能线性减少证明开销。
- 并行化与硬件加速：ZKP的生成（证明者侧）是计算密集型任务，可以利用GPU或专用硬件加速。
超越ECE的审计指标：ECE是全局平均，可能掩盖局部严重的校准问题。可以考虑扩展协议，支持验证每个桶的最大校准误差，或者验证更复杂的校准指标如核密度估计校准误差。
与训练证明结合：最强大的保证来自于零知识训练证明。即证明模型是从某个公开、合规的数据集，通过一个公开、合规的算法训练而来，中途没有引入任何恶意目标函数（如Mirage的KL损失）。这是未来研究的重要方向，尽管目前计算成本极高。

5. 总结与展望：构建可信AI的下一块拼图

通过这项研究，我们揭示了可信AI生态中一个此前被忽视的脆弱点：不确定性信号本身可能被武器化。Mirage攻击表明，仅仅追求高准确率和良好校准是不够的，我们必须对置信度生成机制的完整性提出要求。

Confidential Guardian 提供了一种基于密码学原语的解决方案。它通过零知识证明，在不泄露商业秘密的前提下，将模型的校准性置于可公开验证的框架下。这为高风险领域的AI合规审计（如金融信贷、招聘筛选、医疗辅助诊断）提供了一种新的技术工具。

然而，这远非终点。在实际部署中，我们面临诸多挑战：

计算成本：ZKP对于超大模型的验证开销仍然是阻碍其大规模应用的壁垒。
阈值设定：如何科学设定校准误差阈值 $\alpha$？它可能因任务、数据分布而异，需要统计学上的严谨定义。
动态环境：数据分布会漂移，模型会更新。如何设计在线、增量的校准审计协议？
更广泛的威胁模型：攻击者可能不直接修改模型，而是通过操纵输入数据（对抗样本）来间接影响置信度。这需要结合对抗鲁棒性进行综合防御。

从我个人的实践来看，将密码学工具深度集成到机器学习工作流中，是构建下一代可信AI系统的必然趋势。它不仅仅是增加了一层“安全外壳”，而是从架构上重塑了信任的建立方式——从依赖机构的信誉，转向依赖可验证的数学证明。这条路很长，但Confidential Guardian及其背后的思想，已经为我们点亮了一个关键的路标：真正的可信，需要可验证；而可验证，离不开密码学的保障。未来的工作将致力于让这种保障变得更高效、更灵活、更易于集成，最终使得“可验证的可靠性”成为AI系统的标准配置。

查看全文

http://www.jsqmd.com/news/881340/