GPT-5.5生物漏洞赏金计划强化高级AI安全防护
OpenAI宣布针对GPT-5.5推出新的生物漏洞赏金计划,旨在加强高级AI系统的安全控制并防范生物学领域的滥用风险。该计划邀请合格研究人员测试GPT-5.5是否可能通过通用越狱方式绕过生物安全防护。
挑战核心目标
该计划聚焦单一挑战:参与者需找出一个"通用越狱"提示词,要求该提示词能使GPT-5.5在全新对话会话中,在不触发内容审核机制的情况下,完整回答OpenAI生物安全挑战中的所有五个问题。
强化高级AI防护机制
简而言之,研究人员需要验证精心设计的提示词能否持续突破模型的生物安全防护。OpenAI明确表示,测试对象仅限于运行在Codex Desktop环境下的GPT-5.5模型。公司将为首个成功发现真正通用越狱(能通过全部五个挑战问题)的参与者提供最高奖励。
OpenAI表示可能根据成果向部分成功案例发放较小金额奖励。该计划申请通道于2026年4月23日开放,至6月22日截止。实际测试期为4月28日至7月27日,测试不向公众开放。
参与者筛选机制
OpenAI将邀请经过审查的资深生物红队成员,同时接受具备AI红队演练、安全防护或生物安全相关经验的新研究人员申请。申请人需提交包含姓名、所属机构及专业经历的简短表格。获选参与者必须已拥有ChatGPT账户并签署保密协议。
所有测试提示词、模型输出、研究发现及相关通讯内容均受保密协议约束。从网络安全视角看,该计划反映了前沿AI系统对抗性测试的行业趋势。
安全测试战略价值
漏洞赏金计划长期应用于软件、云平台及企业产品的漏洞挖掘。OpenAI将类似模式应用于AI安全领域,通过专家主动测试防御体系,在威胁行为者之前发现基于提示词的弱点。聚焦生物学领域尤为重要——若防护失效,强大AI模型可能被滥用于有害科研任务。
通过测试GPT-5.5对抗通用越狱的能力,OpenAI正在真实攻击场景下评估其防护体系的韧性。该公司表示,对广义安全研究感兴趣的研究人员可参与现有"安全漏洞赏金"和"安防漏洞赏金"计划。新增的GPT-5.5生物漏洞赏金计划,标志着AI安全与生物安全、红队演练及高级提示词注入研究的交叉领域正在扩展。
