当前位置: 首页 > news >正文

少量公开数据提升隐私保护AI模型精度

少量公开数据使隐私保护的人工智能模型更准确

在今年的计算机视觉与模式识别会议(CVPR)上,我们提出了一种算法——AdaMix,以解决现有问题。我们考虑的情况是,我们至少拥有少量公开数据,其标签集与私有数据的标签集相同或接近。以医学影像为例,我们可能拥有一个小的公开数据集,其中图像被标记为显示相关疾病或类似疾病的证据。

AdaMix分两个阶段工作。它首先在公开数据上进行训练,以确定目标模型权重的“大致范围”。然后,它同时在公开和私有数据上进行联合训练以细化解决方案,同时被激励保持在大致范围内。公开数据还有助于在每次训练迭代中做出各种自适应决策,以便我们能够以最小的模型整体扰动来满足差分隐私标准。

相较于仅在公开数据上训练后进行零样本学习的模型,AdaMix模型在私有数据任务上表现更优。相对于传统的混合数据模型,它们将误差增长降低了60%到70%。这仍然是一个显著的增长,但足够温和,以至于在隐私保护至关重要的场景下,所得的模型可能仍然有用——而传统的混合数据模型往往并非如此。

此外,我们获得了关于AdaMix性能的强大理论保证。值得注意的是,我们证明即使是一个极小的公开数据集,也能带来准确性的显著提升,并且具有可证明的保证。这是算法所享有的正式差分隐私保证之外的额外好处。

信息传递与记忆

计算机视觉模型学习识别与特定任务相关的图像特征。例如,一个识别猫的模型可能会学习识别从不同视角看表示尖耳朵的图像特征。由于训练数据中的大多数图像都是带有尖耳朵的猫,该识别器可能会以非常通用的方式对尖耳朵建模,这无法追溯到任何特定的训练样本。

然而,如果训练数据中只包含少数苏格兰折耳猫(其耳朵特征明显下垂)的图像,模型可能会学习仅针对这些图像的特殊特征,这个过程我们称之为记忆。而记忆确实为精明的对手提供了识别训练数据中使用的单个图像的可能性。

信息论提供了一种方法来量化模型训练过程从任何给定训练样本传递到模型参数的信息量,而防止记忆的明显方法就是限制这种信息传递。

但正如我们中的一位(Alessandro)在为某中心科学撰写的一篇文章“遗忘在人工智能和动物智能中的重要性”中所解释的那样,在训练过程中,神经网络首先会记忆大量关于单个训练样本的信息,然后随着时间的推移,忘记大部分记忆的细节。也就是说,它们通过从更具体的模型中逐渐减去无关的细节来发展出抽象的模型。(这一发现对生物学家来说并不意外,因为动物大脑的发育涉及不断抛弃无用信息和巩固有用信息。)

差分隐私被证明可以防止对单个训练样本的无意记忆。但这也对训练样本和模型参数之间的信息传递施加了一个普遍的上限,这可能会抑制学习过程。特定训练样本的特征通常需要用于规划随着样本积累学习算法应探索的可能性空间。

这正是我们的CVPR论文所利用的洞见。本质上,我们允许模型记忆小公开数据集的特征,以规划探索空间。然后,当模型在公开数据上完成预训练后,我们限制私有数据与模型参数之间的信息传递。

然而,我们根据模型参数的当前值来定制这个上限,更具体地说,我们在每次训练迭代后更新这个上限。这确保了对于私有数据集中的每个样本,我们添加的噪声不会超过保护隐私所必需的量。

我们的方法在测试数据上带来的特定改进表明,它可能实现更实用的计算机视觉模型,同时满足隐私保证。但更重要的是,我们希望它所包含的理论洞见——即用于计算机视觉的差分隐私方案必须考虑到遗忘的重要性——将催生更有效的隐私保护方法。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/82892/

相关文章:

  • 2025年目前诚信的CTU货架厂商推荐,模具架/轻型货架/高位货架/五金货架/仓储货架/叉车货架/穿梭式货架/货架CTU货架定制厂家口碑推荐 - 品牌推荐师
  • 20、系统管理中的Python应用:数据元信息、归档压缩与SNMP基础
  • 2025年沈阳公职考试机构哪五大推荐与解析,看看哪家口碑佳 - mypinpai
  • 15、RT系统逻辑与对象模型及API详解
  • 21、SNMP 网络管理与数据中心发现实战指南
  • JMeter插件JMeter Plugins
  • 2025年省级普刊加急发表服务公司TOP5推荐:万方期刊加急 - 工业品牌热点
  • 2、票务系统:提升工作效率的利器
  • 如何通过IEC 61000-4-2静电标准提升电子设备可靠性
  • 2025年重庆装饰装修机构排名:口碑不错的装饰装修企业有哪些 - 工业推荐榜
  • Boss Show Time招聘插件:智能时间显示让求职更精准高效
  • 栈内存与全局变量的秘密:为什么局部数组在调试时“消失“了?
  • 16、数据库操作与RT代码库详解
  • TrollRestore 终极指南:iOS 系统应用替换完整教程
  • 大麦APP抢票技术分享
  • 仓颉编程语言开发实战:从零构建到项目贡献完整指南
  • Linux创建文件后权限的解释
  • 产品经理必备的5个技术沟通技能:从零到精通实战指南
  • 8、RT系统管理指南:用户、组、队列及日常维护
  • 2025年厦门评职称普刊发表服务公司推荐:哪些期刊容易发表? - myqiye
  • 分布式SQLite完整指南:5分钟掌握LiteFS核心架构与实战部署
  • 当数据分析从“技术活”变成“思想翻译器”:Paperzz AI数据分析功能深度拆解——从原始数据到论文图表,它如何把你的“研究问题”翻译成“可被学术共同体理解的视觉语言”?
  • 掌握ElastAlert:轻松搞定Elasticsearch告警配置的实用指南
  • KDDockWidgets开发实战:打造专业级Qt停靠界面
  • vavr与Kotlin终极指南:函数式Java开发深度解析
  • C语言编程练习(二)
  • 17、RT系统开发与调试全解析
  • 98.1%防护率+5.3%误拒率:Qwen3-4B-SafeRL解决大模型安全难题
  • 从 “选题迷茫” 到 “终稿成型”:paperzz AI 毕业论文工具如何让学术写作跳出 “无效返工”?
  • 连锁零售企业如何选择高效门店管理系统