当前位置：首页 > news >正文

少量公开数据提升隐私保护AI模型精度

news 2026/3/27 2:27:21

少量公开数据使隐私保护的人工智能模型更准确

在今年的计算机视觉与模式识别会议（CVPR）上，我们提出了一种算法——AdaMix，以解决现有问题。我们考虑的情况是，我们至少拥有少量公开数据，其标签集与私有数据的标签集相同或接近。以医学影像为例，我们可能拥有一个小的公开数据集，其中图像被标记为显示相关疾病或类似疾病的证据。

AdaMix分两个阶段工作。它首先在公开数据上进行训练，以确定目标模型权重的“大致范围”。然后，它同时在公开和私有数据上进行联合训练以细化解决方案，同时被激励保持在大致范围内。公开数据还有助于在每次训练迭代中做出各种自适应决策，以便我们能够以最小的模型整体扰动来满足差分隐私标准。

相较于仅在公开数据上训练后进行零样本学习的模型，AdaMix模型在私有数据任务上表现更优。相对于传统的混合数据模型，它们将误差增长降低了60%到70%。这仍然是一个显著的增长，但足够温和，以至于在隐私保护至关重要的场景下，所得的模型可能仍然有用——而传统的混合数据模型往往并非如此。

此外，我们获得了关于AdaMix性能的强大理论保证。值得注意的是，我们证明即使是一个极小的公开数据集，也能带来准确性的显著提升，并且具有可证明的保证。这是算法所享有的正式差分隐私保证之外的额外好处。

信息传递与记忆

计算机视觉模型学习识别与特定任务相关的图像特征。例如，一个识别猫的模型可能会学习识别从不同视角看表示尖耳朵的图像特征。由于训练数据中的大多数图像都是带有尖耳朵的猫，该识别器可能会以非常通用的方式对尖耳朵建模，这无法追溯到任何特定的训练样本。

然而，如果训练数据中只包含少数苏格兰折耳猫（其耳朵特征明显下垂）的图像，模型可能会学习仅针对这些图像的特殊特征，这个过程我们称之为记忆。而记忆确实为精明的对手提供了识别训练数据中使用的单个图像的可能性。

信息论提供了一种方法来量化模型训练过程从任何给定训练样本传递到模型参数的信息量，而防止记忆的明显方法就是限制这种信息传递。

但正如我们中的一位（Alessandro）在为某中心科学撰写的一篇文章“遗忘在人工智能和动物智能中的重要性”中所解释的那样，在训练过程中，神经网络首先会记忆大量关于单个训练样本的信息，然后随着时间的推移，忘记大部分记忆的细节。也就是说，它们通过从更具体的模型中逐渐减去无关的细节来发展出抽象的模型。（这一发现对生物学家来说并不意外，因为动物大脑的发育涉及不断抛弃无用信息和巩固有用信息。）

差分隐私被证明可以防止对单个训练样本的无意记忆。但这也对训练样本和模型参数之间的信息传递施加了一个普遍的上限，这可能会抑制学习过程。特定训练样本的特征通常需要用于规划随着样本积累学习算法应探索的可能性空间。

这正是我们的CVPR论文所利用的洞见。本质上，我们允许模型记忆小公开数据集的特征，以规划探索空间。然后，当模型在公开数据上完成预训练后，我们限制私有数据与模型参数之间的信息传递。

然而，我们根据模型参数的当前值来定制这个上限，更具体地说，我们在每次训练迭代后更新这个上限。这确保了对于私有数据集中的每个样本，我们添加的噪声不会超过保护隐私所必需的量。

我们的方法在测试数据上带来的特定改进表明，它可能实现更实用的计算机视觉模型，同时满足隐私保证。但更重要的是，我们希望它所包含的理论洞见——即用于计算机视觉的差分隐私方案必须考虑到遗忘的重要性——将催生更有效的隐私保护方法。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码