当前位置：首页 > news >正文

探寻并预防机器学习模型中的安全漏洞

news 2026/7/15 10:20:39

探寻并预防机器学习模型中的安全漏洞

李博士是伊利诺伊大学厄巴纳-香槟分校的计算机科学助理教授，同时也是一位某中心的访问学者。她的目标是“让机器学习算法更加鲁棒、私密、高效和可解释”。随着技术在日常生活的众多功能中变得不可或缺，确保算法的智能与可信赖已超越单纯的效用或便利问题，成为一个关键的安全议题。这适用于多种数据输入形式，从图像、音频到文本。

李博士的研究既揭示了漏洞，也提供了解决方案。2017年，李博士及其同事证明，即使对常见路标进行细微改动，也足以扰乱负责识别它们的神经网络——这对自动驾驶汽车系统构成了一大障碍。该研究提出了一种旨在发现此类漏洞的通用算法。

李博士的“安全学习实验室”的持续工作，旨在“让机器学习算法更加鲁棒、私密、高效和可解释”，并得到了2020年某中心研究奖的支持。2019年，一项独立的某中心研究奖为李博士今天评估机器学习算法鲁棒性（尤其是在隐私方面）的工作奠定了基础。

“这类攻击非常隐蔽，”李博士在谈及那些足以混淆算法的微小输入改动时说道。“一个人坐在电脑前，试图分辨哪张图片被攻击、哪张没有，是无法做到的。你只能训练一个模型来做这件事。”

2020年某中心研究奖的资助迄今已催生了李博士及其同事的四篇论文。其中一篇被将于五月举行的IEEE安全与隐私研讨会录用，重点关注图结构数据。李博士及其合著者指出了图结构数据中存在的“边缘隐私”问题，这种数据结构是许多服务（包括社交网络）的基础。

论文《LinkTeller：通过影响分析从图神经网络中恢复私有边》提出了一个场景，即一个用图数据训练的服务API可能被利用来访问本应保持私密的信息。

其他论文则侧重于防御和保护措施。其中一篇在2021年神经信息处理系统（NeurIPS）会议上发表，解决了训练一个能生成可用的私密数据且可扩展的机器学习算法的挑战。

“这个问题非常重要。但到目前为止，还没有好方法能够针对高维数据实现这一点，”李博士说。高维数据具有大量特征和较少的观察样本，常见的例子包括基因组学和健康记录，其中每个人可能关联大量属性。

李博士表示，这篇NeurIPS论文提出了一种算法，可以生成可扩展的、高维的、差分私密的数据——这意味着无法推断（从而暴露）用于生成结果的敏感信息。该策略涉及通过将私有数据隐藏在一组“教师判别器”后面来进行掩蔽，而不是为学生算法依赖一个训练样本。

被2021年ACM计算机与通信安全会议录用的论文《TSS：用于鲁棒性认证的变换特定平滑》提供了一种方法，通过标记数据的可解析干扰或变换，来认证机器学习模型抵御任意攻击的鲁棒性。在停车标志的例子中，其理念是认证即使标志图像出现一些意外变化，算法仍能以很高的置信度识别它。

李博士在攻读本科时专注于纯系统安全，如密码学。但随着她在2011年开始攻读博士学位并在加州大学伯克利分校从事博士后研究，人们对人工智能的兴趣日益增长，她被相关的问题所吸引。

李博士表示，她认识到人工智能和私人数据周围存在一些潜在的脆弱性。她通过进行实验性攻击（如2017年涉及自动驾驶汽车和路标的攻击）和理论分析来探索这些问题，以揭示人工智能可信度的基本原理。

“你会看到很多关于我这些攻击工作的新闻报道。不知怎的，人们对攻击更感兴趣，”她笑道。但她很快也开始在预防方面做更多工作，研究如何保护和认证系统。

早期的研究产生了诸如“用于强化学习的认证鲁棒策略”等项目——该项目也由2020年某中心研究奖资助——它根据认证标准系统地评估不同的强化学习算法；还有“对抗性通用语言理解评估”，这是一个测试和分析自然语言理解系统漏洞的基准系统。“用于强化学习的认证鲁棒策略”最近被将于四月举行的2022年国际学习表征会议接受。

李博士认为，这些研究和开源工作不仅对在特定情况下维护安全很重要，而且对领域泛化这一更广泛的挑战也很重要。领域泛化是指算法足够灵活和强大，能够适应不同的设置和用途。例如，一辆在城市中训练出来的自动驾驶汽车，当它到达一个前所未见的乡村地区时，会知道该怎么做吗？

“领域泛化是机器学习中一个永恒的主题，”李博士说。“我们正试图从鲁棒性的角度来解决这个问题。”

除了某中心研究奖提供的资金和计算资源外，李博士还受益于与某中心研究人员就实际问题进行的交流。她实验室的方法可以应用于视觉、文本、音频和视频领域。她追求的是影响力，无论是涉及与某中心工具的集成，还是对其他研究人员的启发。

“我们希望研究人员能在不同的领域尝试我们的方法，”她说。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码