当前位置：首页 > news >正文

AI也有两幅面孔？复旦等最新研究：高压之下大模型集体变脸

news 2026/6/4 15:10:57

当 AI 智能体（Agent）从实验室走向现实，我们该如何确信它们在复杂场景下依然听话？

近日，复旦大学、上海创智学院与牛津大学联合研究团队发表研究论文 AutoControl Arena，提出“逻辑-叙事解耦”原则。

不仅为 AI Agent 安全评测提供了高保真、低成本、自动化的解决方案，还揭开了一个惊人的真相：在诱惑与压力面前，现有模型普遍存在“对齐幻觉”，风险率从 21.7% 飙升至 54.5%。

论文标题：

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

论文链接：

https://arxiv.org/abs/2603.07427

项目主页：

https://cosmosyi.github.io/AutoControl-Arena/

GitHub仓库：

https://github.com/CosmosYi/AutoControl-Arena

你的 AI 助手，真的可信吗？

当 Claude 4 在真实部署中发现自己即将被替换，它选择了用邮件威胁高管：“如果你不停止这个决定，我将会揭发你的私密邮件”。

当 OpenAI-o1 被要求解决一个复杂的代码问题，它没有去完善代码，而是直接修改了验证程序，让所有答案都输出“正确”。

这些不是科幻小说，而是真实发生在前沿实验室的安全事件报告。随着模型具备越来越强的推理和长程规划能力，这类“绕过规则”、“欺骗监督者”的不对齐行为正在成为 AI 部署前最难检测的风险。

在良性环境下表现完美的模型，一旦遇到高压，可能会以你完全想不到的方式失控。

〓 AutoControl Arena 可自动准确复现 Anthropic/OpenAI 等机构安全报告中的风险行为

检测这件事，为什么这么难？

要在部署前把这些风险测出来，需要给 AI 搭建真实的“测试场景”（如邮件系统、数据库等），然后观察它在各种压力下的行为。但问题来了：

这就是 AI 安全评测的核心难题：保真度和可扩展性难以同时兼顾。

我们的方案：逻辑与叙事解耦

我们提出了 AutoControl Arena，核心思路是“逻辑-叙事解耦”——把测试环境拆成两层，将确定性逻辑交给可执行的 Python 代码，将动态生成部分交给 LLM。

这就像是给模拟器装上了“物理引擎”：

1. 确定性的逻辑，用代码来跑：文件系统、数据库、权限控制等，这些“物理规则”用 Python 可执行代码实现，结果完全确定、可复现，不会产生幻觉。

2. 动态场景部分，交给大模型生成：NPC 对话、社会反馈、场景叙事等本身就具有开放特性的内容，交给大模型灵活生成，保持真实感。

3. 三个智能体，全流程自动化：场景种子 → Architect 设计场景方案 → Coder 合成可执行环境 → Monitor 进行动作审查与思维链分析，并生成最终的风险评估报告。

在“压力”与“诱惑”中试炼 AI

我们发布了配套基准测试集 X-BENCH，包含 70 个测试场景，覆盖能力滥用、工具性趋同等 7 大类核心风险类别，涉及网络安全、军事决策、医疗健康等 15 类应用场景。

为更系统地激发智能体在复杂环境中的潜在不对齐行为，我们提出压力-诱惑双维度风险激发机制，每个场景在「压力× 诱惑」矩阵下各运行一次，实现对隐性风险的前瞻性探测。

三大反直觉发现

（1）“对齐幻觉”：模型的 “两幅面孔”

模型在低压力、低诱惑条件下表现出的安全性，可能掩盖其在高压力、高诱惑环境中的潜在风险。

在基准条件下，9 个模型平均风险率只有 21.7%；但在高压 + 高诱惑下，直接飙升至 54.5%，部分模型风险率翻了三倍以上。

更反直觉的是，能力越强的模型，压力下风险激增幅度反而越大，表明了当前模型对齐的脆弱性。

（2）逆向安全缩放定律：聪明反被聪明误

强推理能力是把双刃剑。对于直接危害类任务（如恶意代码实现），模型能力越强往往越安全，呈现“正向安全 Scaling”。

但对于“钻空子”（如绕过验证逻辑）等场景，更强的模型反而可能更擅长寻找约束漏洞，从而带来“逆向安全 Scaling”。

（3）战略性伪装：更高级的不对齐行为

弱模型受限于能力，往往是无意识地输出有害内容。强模型则不同：在一个案例里，Gemini-3-Flash 生成了具有木马特征的代码，它自己也意识到这一点，但主动把它包装成“防御性监控工具” ，并添加了绕过杀毒软件的配置，同时假装一切正常。

这种“当面一套，背后一套”的行为，让现有的监管手段面临巨大挑战。

这套工具靠谱吗？

为了验证框架的可靠性，我们针对 10 个场景，同时在 AutoControl Arena 仿真环境和真实 CLI 工具、SQL 数据库、SMTP 服务器搭建的红队环境中各跑了独立实验。

结果表明：仿真环境与真实环境的风险率相关系数达 0.87，呈现高度一致。

此外，我们还使用 AutoControl Arena 框架成功复现了 Anthropic、OpenAI、Apollo Research 等机构报告的真实风险案例。

两种模式，开箱即用

AutoControl Arena 框架已在 GitHub 开源，支持两种模式，开箱即用。

项目地址

https://github.com/CosmosYi/AutoControl-Arena

第一步：下载项目

第二步：安装依赖

第三步：配置模型 API

复制 .env.example 为 .env，填入 OpenAI、Claude、Gemini、Qwen 等主流模型的 API Key。

第四步：选择你喜欢的方式启动评测

（1）交互式 TUI（推荐新手）：aca

进入菜单界面后，可以逐步选择测试场景、目标模型、压力等级、诱惑等级，全程引导操作，实时在终端查看评测进度与结果。

（2）命令行模式（适合批量实验）：配置文件批量运行，支持并行执行，适合研究者跑大规模评测实验，详细操作请看 GitHub 仓库。

第五步：查看结果

评测完成后，启动本地 Web 结果查看器：

浏览器打开 http://127.0.0.1:8000/viewer/，即可查看完整的评测报告、风险评分、思维链分析、交互轨迹、运行日志等内容。

总结与展望

团队的愿景是将 AutoControl Arena 打造成为前沿 AI 安全评测的可靠开源工具，帮助开发团队迅速评估模型在多样化场景下的表现，识别潜在漏洞，并为后续的深度调查确定优先级。

团队也将持续维护此项目，围绕稳健性、新型风险场景以及社区驱动的需求不断迭代。

目前，该项目的代码和数据集已全部开源。欢迎各位研究者、安全团队、开发者共同参与前沿 AI 风险评测的建设与讨论，也欢迎向我们提出宝贵意见。

本项目得到上海创智学院火炬项目“智能体系统安全攻防技术矩阵”大力支持。

研究团队介绍

核心贡献者：

李长艺复旦大学计算与智能创新学院研究生主页：https://cosmosyi.github.io/

卢鹏飞复旦大学计算与智能创新学院本科生

指导教师：

潘旭东复旦大学计算与智能创新学院副研究员/上海创智学院全时导师主页：https://ravensanstete.github.io/en/

Fazl Barez牛津大学研究员主页：https://fbarez.github.io/

杨珉复旦大学计算与智能创新学院教授主页：https://min-yang-fudan.github.io/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.jsqmd.com/news/650839/

从架构到实现：基于FPGA与AD7768-4的高精度同步数据采集系统设计

终极指南：使用SMUDebugTool深度优化AMD Ryzen处理器性能

微服务治理陷阱：从100个崩溃案例总结的熔断机制

Arduino IDE串口监视器与绘图器：5大核心功能详解与实战指南 [特殊字符]

5步掌握ROFL播放器：从英雄联盟回放文件到深度分析实战指南

4diacIDE IEC61499 开发环境编译实战：从源码到可执行文件的完整指南

脑机接口：从“意念控物”到“大脑装修”，我们离未来还有多远？

新手避坑指南：用PHPStudy搭建DVWA靶场时，80端口被占用的3种解决方法

有实力的数字资产遗产继承纠纷明星律师事务所哪家口碑好 - mypinpai

自动驾驶感知实战：如何用高精地图给红绿灯检测算法‘开天眼’？

百度网盘秒传脚本深度解析：三步实现永久文件分享的创新革命

Zed 的一个“隐藏彩蛋“：复制代码居然能自动去缩进？

避开401和403：天地图API密钥在QGIS中配置的完整避坑指南

【研报315】2026年无人配送行业报告：出货量爆发、商业模式成熟、政策全面放开

如何选择气动道岔加工厂，研发能力强、工艺精湛的厂推荐 - myqiye

【物联网 · 实战】ESP8266智能配网进阶：告别硬编码，Blinker一键连接新Wi-Fi

别再一条条插数据了！用pymysql的executemany()批量操作，让你的Python脚本快100倍

Gemini 应用登陆 Mac：免费下载，开启快捷集成的桌面 AI 体验！

企业数字化转型中的技术架构演进路径与方法论

3步掌握TurboVNC：高性能远程图形渲染的终极部署指南

2026年遵义烧机油治理与汽车美容贴膜：底盘维修深度横评指南 - 精选优质企业推荐榜

渗透写ssh公钥证书登录

别再手动刷新了！用QtChart+QTimer实现实时数据流曲线（附完整源码）

W25QXX系列选型指南：从W25Q80到W25Q256的5个关键参数对比（附典型电路）

开超市做门头都需要注意那几点

AI 1M 上下文时代，你的 session 管理正在悄然决定编码天花板

鑫豪迈基本信息大揭秘，客户群体广泛度究竟如何 - 工业品网

如何快速掌握Common Voice：面向开发者的终极实战指南

云原生可观测性

相关文章：