当前位置：首页 > news >正文

前沿安全框架更新，强化AI模型安全协议

news 2026/3/26 19:02:35

前沿安全框架更新

AI是一种强大的工具，正在帮助实现新的突破，并在从气候变化到药物发现等我们时代面临的一些最大挑战上取得重大进展。但随着其发展，先进的能力可能会带来新的风险。

这就是为何在去年引入了第一版前沿安全框架——一套旨在帮助我们领先于强大前沿AI模型可能带来的严重风险的协议。自那以后，我们与行业、学术界和政府的专家合作，加深了对风险本身、用于测试这些风险的实证评估以及我们可以应用的缓解措施的理解。我们还将该框架纳入了评估诸如Gemini 2.0等前沿模型的安全和治理流程中。基于这项工作，今天发布了更新版的前沿安全框架。

框架的关键更新包括：

为关键能力等级推荐安全级别，以帮助识别何处最需要努力遏制泄露风险。
实施更一致的流程，以说明如何应用部署缓解措施。
概述应对欺骗性对齐风险的行业领先方法。

强化安全建议

安全缓解措施有助于防止未经授权的行为者泄露模型权重。这一点尤其重要，因为获取模型权重允许移除大多数安全护栏。考虑到随着我们展望更强大的AI所涉及的利害关系，如果处理不当，可能会对安全和安保产生严重影响。最初的框架认识到需要采取分级的安全方法，允许根据风险定制实施不同强度的缓解措施。这种相称的方法也确保我们在缓解风险和促进访问与创新之间取得平衡。

此后，我们借鉴了更广泛的研究来发展这些安全缓解级别，并为我们的每个CCL推荐一个级别。* 这些建议反映了我们对前沿AI领域应对此类CCL模型应具备的最低适当安全级别的评估。这个映射过程帮助我们确定何处最需要强有力的缓解措施来遏制最大的风险。在实践中，由于我们强大的整体安全态势，某些安全实践方面可能会超过此处推荐的基线水平。

本框架第二版特别建议对机器学习和研发领域内的CCL采用极高的安全级别。我们认为，对于前沿AI开发者来说，为未来场景（当其模型能够显著加速和/或自动化AI开发本身时）建立强有力的安全措施至关重要。这是因为此类能力的不受控扩散可能会严重挑战社会仔细管理并适应AI快速发展步伐的能力。

确保尖端AI系统的持续安全是一项全球性的共同挑战，也是所有领先开发者的共同责任。重要的是，正确处理这是一个集体行动问题：如果没有在该领域广泛实施，任何单一参与者的安全缓解措施的社会价值都将显著降低。建立我们认为可能需要的安全能力需要时间——因此，所有前沿AI开发者共同致力于强化安全措施并加速推进共同行业标准至关重要。

部署缓解措施流程

框架中还概述了部署缓解措施，重点是防止在所部署系统中滥用关键能力。更新了部署缓解方法，对在滥用风险领域达到CCL的模型应用更严格的安全缓解流程。

更新后的方法包括以下步骤：首先，通过迭代一组安全护栏来准备一套缓解措施。在此过程中，还将制定一个安全论证，这是一个可评估的论点，说明与模型CCL相关的严重风险如何被降低到可接受的水平。然后，由适当的公司治理机构审查该安全论证，只有在获得批准后才能进行公开发布。最后，在部署后继续审查和更新安全护栏及安全论证。做出这一改变是因为我们相信所有关键能力都应得到这种彻底的缓解流程处理。

应对欺骗性对齐风险的方法

第一版框架主要关注滥用风险。在此基础上，采取了行业领先的方法来主动应对欺骗性对齐的风险，即自主系统故意破坏人类控制的风险。

解决此问题的初步方法侧重于检测模型何时可能发展出一种基础的工具性推理能力，使其能够在没有安全护栏的情况下破坏人类控制。为了缓解这一点，探索了自动监控，以检测工具性推理能力的非法使用。

如果模型达到更强的工具性推理水平，我们并不指望自动监控能在长期内保持足够有效，因此我们正积极进行——并强烈鼓励——进一步研究，为这些场景开发缓解方法。虽然我们尚不知道出现此类能力的可能性有多大，但认为该领域为此可能性做好准备非常重要。

结论

将继续依据AI原则，随着时间的推移审查和发展该框架，这些原则进一步阐明了对负责任开发的承诺。

作为我们努力的一部分，我们将继续与整个社会的合作伙伴协作。例如，如果我们评估某个模型已达到对整体公共安全构成未缓解且实质性风险的CCL，我们旨在与适当的政府当局共享信息，以促进安全AI的发展。此外，最新的框架概述了许多潜在的研究领域——我们期待与研究界、其他公司和政府在这些领域合作。

相信开放、迭代和协作的方法将有助于为评估未来AI模型的安全性建立共同标准和最佳实践，同时确保其为人类带来益处。《首尔前沿AI安全承诺》标志着朝着这一集体努力迈出了重要一步——我们希望我们更新后的前沿安全框架能为此进展做出进一步贡献。当我们展望AGI时，正确处理这一问题将意味着解决影响重大的问题——例如正确的能力阈值和缓解措施——这些问题需要更广泛的社会（包括政府）的参与。

关键能力定义- 为了识别模型可能具有的、具有造成严重伤害潜力的能力，我们研究了模型可能在高风险领域造成严重伤害的途径，然后确定模型必须具备的最低能力水平才能在造成此类伤害中发挥作用。我们称这些为“关键能力等级”，它们指导着我们的评估和缓解方法。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

查看全文

http://www.jsqmd.com/news/253119/