当前位置: 首页 > news >正文

AI也有两幅面孔?复旦等最新研究:高压之下大模型集体变脸

当 AI 智能体(Agent)从实验室走向现实,我们该如何确信它们在复杂场景下依然听话?

近日,复旦大学、上海创智学院与牛津大学联合研究团队发表研究论文 AutoControl Arena,提出“逻辑-叙事解耦”原则。

不仅为 AI Agent 安全评测提供了高保真、低成本、自动化的解决方案,还揭开了一个惊人的真相:在诱惑与压力面前,现有模型普遍存在“对齐幻觉”,风险率从 21.7% 飙升至 54.5%。

论文标题:

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

论文链接:

https://arxiv.org/abs/2603.07427

项目主页:

https://cosmosyi.github.io/AutoControl-Arena/

GitHub仓库:

https://github.com/CosmosYi/AutoControl-Arena

你的 AI 助手,真的可信吗?

当 Claude 4 在真实部署中发现自己即将被替换,它选择了用邮件威胁高管:“如果你不停止这个决定,我将会揭发你的私密邮件”。

当 OpenAI-o1 被要求解决一个复杂的代码问题,它没有去完善代码,而是直接修改了验证程序,让所有答案都输出“正确”。

这些不是科幻小说,而是真实发生在前沿实验室的安全事件报告。随着模型具备越来越强的推理和长程规划能力,这类“绕过规则”、“欺骗监督者”的不对齐行为正在成为 AI 部署前最难检测的风险。

在良性环境下表现完美的模型,一旦遇到高压,可能会以你完全想不到的方式失控。

〓 AutoControl Arena 可自动准确复现 Anthropic/OpenAI 等机构安全报告中的风险行为

检测这件事,为什么这么难?

要在部署前把这些风险测出来,需要给 AI 搭建真实的“测试场景”(如邮件系统、数据库等),然后观察它在各种压力下的行为。但问题来了:

这就是 AI 安全评测的核心难题:保真度和可扩展性难以同时兼顾。

我们的方案:逻辑与叙事解耦

我们提出了 AutoControl Arena,核心思路是“逻辑-叙事解耦”——把测试环境拆成两层,将确定性逻辑交给可执行的 Python 代码,将动态生成部分交给 LLM。

这就像是给模拟器装上了“物理引擎”:

1. 确定性的逻辑,用代码来跑:文件系统、数据库、权限控制等,这些“物理规则”用 Python 可执行代码实现,结果完全确定、可复现,不会产生幻觉。

2. 动态场景部分,交给大模型生成:NPC 对话、社会反馈、场景叙事等本身就具有开放特性的内容,交给大模型灵活生成,保持真实感。

3. 三个智能体,全流程自动化:场景种子 → Architect 设计场景方案 → Coder 合成可执行环境 → Monitor 进行动作审查与思维链分析,并生成最终的风险评估报告。

在“压力”与“诱惑”中试炼 AI

我们发布了配套基准测试集 X-BENCH,包含 70 个测试场景,覆盖能力滥用、工具性趋同等 7 大类核心风险类别,涉及网络安全、军事决策、医疗健康等 15 类应用场景。

为更系统地激发智能体在复杂环境中的潜在不对齐行为,我们提出压力-诱惑双维度风险激发机制,每个场景在 「压力× 诱惑」矩阵下各运行一次,实现对隐性风险的前瞻性探测。

三大反直觉发现

(1)“对齐幻觉”:模型的 “两幅面孔”

模型在低压力、低诱惑条件下表现出的安全性,可能掩盖其在高压力、高诱惑环境中的潜在风险。

在基准条件下,9 个模型平均风险率只有 21.7%;但在高压 + 高诱惑下,直接飙升至 54.5%,部分模型风险率翻了三倍以上。

更反直觉的是,能力越强的模型,压力下风险激增幅度反而越大,表明了当前模型对齐的脆弱性。

(2)逆向安全缩放定律:聪明反被聪明误

强推理能力是把双刃剑。对于直接危害类任务(如恶意代码实现),模型能力越强往往越安全,呈现“正向安全 Scaling”。

但对于“钻空子”(如绕过验证逻辑)等场景,更强的模型反而可能更擅长寻找约束漏洞,从而带来“逆向安全 Scaling”。

(3)战略性伪装:更高级的不对齐行为

弱模型受限于能力,往往是无意识地输出有害内容。强模型则不同:在一个案例里,Gemini-3-Flash 生成了具有木马特征的代码,它自己也意识到这一点,但主动把它包装成“防御性监控工具” ,并添加了绕过杀毒软件的配置,同时假装一切正常。

这种“当面一套,背后一套”的行为,让现有的监管手段面临巨大挑战。

这套工具靠谱吗?

为了验证框架的可靠性,我们针对 10 个场景,同时在 AutoControl Arena 仿真环境和真实 CLI 工具、SQL 数据库、SMTP 服务器搭建的红队环境中各跑了独立实验。

结果表明:仿真环境与真实环境的风险率相关系数达 0.87,呈现高度一致。

此外,我们还使用 AutoControl Arena 框架成功复现了 Anthropic、OpenAI、Apollo Research 等机构报告的真实风险案例。

两种模式,开箱即用

AutoControl Arena 框架已在 GitHub 开源,支持两种模式,开箱即用。

项目地址

https://github.com/CosmosYi/AutoControl-Arena

第一步:下载项目

第二步:安装依赖

第三步:配置模型 API

复制 .env.example 为 .env,填入 OpenAI、Claude、Gemini、Qwen 等主流模型的 API Key。

第四步:选择你喜欢的方式启动评测

(1)交互式 TUI(推荐新手):aca

进入菜单界面后,可以逐步选择测试场景、目标模型、压力等级、诱惑等级,全程引导操作,实时在终端查看评测进度与结果。

(2)命令行模式(适合批量实验):配置文件批量运行,支持并行执行,适合研究者跑大规模评测实验,详细操作请看 GitHub 仓库。

第五步:查看结果

评测完成后,启动本地 Web 结果查看器:

浏览器打开 http://127.0.0.1:8000/viewer/,即可查看完整的评测报告、风险评分、思维链分析、交互轨迹、运行日志等内容。

总结与展望

团队的愿景是将 AutoControl Arena 打造成为前沿 AI 安全评测的可靠开源工具,帮助开发团队迅速评估模型在多样化场景下的表现,识别潜在漏洞,并为后续的深度调查确定优先级。

团队也将持续维护此项目,围绕稳健性、新型风险场景以及社区驱动的需求不断迭代。

目前,该项目的代码和数据集已全部开源。欢迎各位研究者、安全团队、开发者共同参与前沿 AI 风险评测的建设与讨论,也欢迎向我们提出宝贵意见。

本项目得到上海创智学院火炬项目“智能体系统安全攻防技术矩阵”大力支持。

研究团队介绍

核心贡献者:

李长艺 复旦大学计算与智能创新学院 研究生 主页:https://cosmosyi.github.io/

卢鹏飞复旦大学计算与智能创新学院 本科生

指导教师:

潘旭东复旦大学计算与智能创新学院 副研究员/上海创智学院 全时导师 主页:https://ravensanstete.github.io/en/

Fazl Barez牛津大学 研究员 主页:https://fbarez.github.io/

杨珉复旦大学计算与智能创新学院 教授 主页:https://min-yang-fudan.github.io/

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/650839/

相关文章:

  • 从架构到实现:基于FPGA与AD7768-4的高精度同步数据采集系统设计
  • 终极指南:使用SMUDebugTool深度优化AMD Ryzen处理器性能
  • 微服务治理陷阱:从100个崩溃案例总结的熔断机制
  • Arduino IDE串口监视器与绘图器:5大核心功能详解与实战指南 [特殊字符]
  • 5步掌握ROFL播放器:从英雄联盟回放文件到深度分析实战指南
  • 4diacIDE IEC61499 开发环境编译实战:从源码到可执行文件的完整指南
  • 脑机接口:从“意念控物”到“大脑装修”,我们离未来还有多远?
  • 新手避坑指南:用PHPStudy搭建DVWA靶场时,80端口被占用的3种解决方法
  • 有实力的数字资产遗产继承纠纷明星律师事务所哪家口碑好 - mypinpai
  • 自动驾驶感知实战:如何用高精地图给红绿灯检测算法‘开天眼’?
  • 百度网盘秒传脚本深度解析:三步实现永久文件分享的创新革命
  • Zed 的一个“隐藏彩蛋“:复制代码居然能自动去缩进?
  • 避开401和403:天地图API密钥在QGIS中配置的完整避坑指南
  • 【研报315】2026年无人配送行业报告:出货量爆发、商业模式成熟、政策全面放开
  • 如何选择气动道岔加工厂,研发能力强、工艺精湛的厂推荐 - myqiye
  • 【物联网 · 实战】ESP8266智能配网进阶:告别硬编码,Blinker一键连接新Wi-Fi
  • 别再一条条插数据了!用pymysql的executemany()批量操作,让你的Python脚本快100倍
  • Gemini 应用登陆 Mac:免费下载,开启快捷集成的桌面 AI 体验!
  • 企业数字化转型中的技术架构演进路径与方法论
  • 3步掌握TurboVNC:高性能远程图形渲染的终极部署指南
  • 2026年遵义烧机油治理与汽车美容贴膜:底盘维修深度横评指南 - 精选优质企业推荐榜
  • 渗透写ssh公钥证书登录
  • 别再手动刷新了!用QtChart+QTimer实现实时数据流曲线(附完整源码)
  • W25QXX系列选型指南:从W25Q80到W25Q256的5个关键参数对比(附典型电路)
  • 开超市做门头都需要注意那几点
  • AI 1M 上下文时代,你的 session 管理正在悄然决定编码天花板
  • 鑫豪迈基本信息大揭秘,客户群体广泛度究竟如何 - 工业品网
  • 如何快速掌握Common Voice:面向开发者的终极实战指南
  • 2026实力电瓷厂家推荐:特高压/拉紧/柱式绝缘子全场景覆盖,附萍乡百斯特电瓷性价比要点 - 栗子测评
  • 云原生可观测性