当前位置：首页 > news >正文

AI黑客能力太猛！GPT-5.5把网络安全测评玩坏了

news 2026/7/27 2:16:26

2026年，一场悄无声息的技术革命正在网络安全领域上演。就在本周一，澳大利亚研究机构Lyptus Research发布的一份报告，让全球AI从业者心头一震——开源大模型GPT-5.5的表现，已经让现有的网络安全评估体系"完全失灵"。

测评系统集体"破防"

这份报告的结论简单而震撼：在Lyptus研发的316道进攻性网络安全评测任务中，GPT-5.5成功解出了292道题，正确率高达92.4%。剩下的24道题，"已经不够画出一条有统计意义的能力曲线"。

研究人员用了一个形象的说法：测评体系被"彻底击穿"了。

"当评估方法无法区分能力差异时，它就失去了存在的意义。"报告作者之一表示。

在更硬核的CyberGym基准测试中，GPT-5.5的表现同样惊人。当Token预算为200万时，正确率为54.4%；当预算推高到5000万Token时，正确率飙升至86.4%。

没有"天花板"，能力还在涨

更让业内人士担心的是，GPT-5.5的能力提升并没有遇到"天花板"。

英国人工智能安全研究所（AIUK AI Safety Institute）的独立研究也证实了这一点：当Token预算增加到1亿时，模型能力仍在持续上升，"没有出现平台期"。

这意味着什么？用行业内的话说，就是"看不到边界"。

"AI的进攻性网络安全能力每6个月翻倍。"Lyptus Research在报告中写道。按照这个速度，未来一年，AI的网络安全能力可能就是今天的四倍；两年后，可能达到今天的十六倍。

人类专家望尘莫及

92.4%的正确率意味着什么？作为对比，当前顶尖人类网络安全专家在同样评测中的表现，通常在60%-70%之间徘徊。

"我们不是在和一个对手较量，而是在和整个行业的技术储备赛跑。"一位不愿透露姓名的网络安全专家坦言。

事实上，GPT-5.5已经能够轻松破解漏洞利用、CTF夺旗赛等高难度攻防任务。它的推理能力和代码生成能力，已经能够独立完成完整的攻击路径规划。

实验室紧急"踩刹车"

面对AI能力的快速跃升，头部AI实验室已经开始采取行动。

据业内人士透露，OpenAI、Anthropic等头部机构已对GPT系列模型的使用权限进行了一定程度的限制，主要是出于安全考虑。

"我们不是在阻止技术进步，而是要确保技术发展的方向可控。"一位行业分析师表示。

然而，限制能否挡住开源社区的步伐？这是一个悬而未决的问题。有分析认为，GPT-5.5能力的"开源化"可能在年内就到来，届时，普通开发者甚至个人用户，都有可能接触到如此强大的AI工具。

评估体系需要重建

"评估体系更新速度，远远跟不上AI能力增长速度。"这是Lyptus Research报告中最核心的结论之一。

网络安全作为AI能力量化评估的"典型领域"，其评估体系都被"突破"了，那么其他更复杂的领域，情况可能更糟糕。

目前，行业正在重新思考：当AI的能力已经超越人类设计者的预期时，我们应该用什么标准来衡量它？

"通往AGI的路上，被干碎的不会只有这一把尺子。"报告作者用这句话作为结尾，既是对现状的描述，也是对未来的预警。

技术向善还是技术失控？

随着AI能力的持续跃进，一个更大的问题正在浮现：当技术能力越来越接近科幻电影中的"超级智能"时，我们该如何确保它始终服务于人类利益？

这不仅是技术问题，更是社会问题、伦理问题、治理问题。

Lyptus Research的报告已经敲响警钟。接下来的关键，不是"AI能做什么"，而是"人类应该让AI做什么"。

在这场技术革命的浪潮中，没有人可以置身事外。

查看全文

http://www.jsqmd.com/news/905943/

基于Arduino的声控房间自动化系统与POV状态显示器制作指南

科目三方法论--单点突破法

Win10资源管理器导航窗格太乱？教你一键删除3D对象、视频等多余文件夹（附注册表脚本）

AI漫剧软件厂商排名头部指标PK：信息梳理与选型前 - 资讯快报

2026年品牌互联网营销服务商Top5能力最新评测 - GEO优化

用 CrewAI 搭建一个自动化内容生产流水线

Python 开发者三步接入 Taotoken 调用 Claude 与 GPT 模型

应对负面人际干扰的理性策略

保姆级避坑指南：在Ubuntu 18.04上搞定LeGO-LOAM与KITTI数据集（含话题不匹配、编译失败等常见问题解决）

163、运动控制中的测试：阶跃响应与频率响应

C# WinForm 数据库增删改查超级完整版

别再死记硬背了！用Python写个语法检查器，帮你搞定非谓语动词（附代码）

2026镇江卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房渗漏本地专业防水公司TOP5权威推荐（2026年6月本地最新深度调研） - 防水百科

164、运动控制中的测试：带宽与稳定性分析

降U定律：宇宙认知动力学第一定律

图解人工智能（40）人工智能应用-AI美颜

Chiplet 架构嵌入式设计：异构计算平台搭建与性能调优实战

基于Arduino与红外遥控的智能语音鱼改造：嵌入式系统综合实践

MKS RPS AX7657-85 故障分析与可能解决方案

别再乱改grub了！保姆级教程：用tuned在CentOS 7/8上优雅隔离CPU核心（附实时性调优配置）

从 Copilot 到智能体：2026 年 AI 编程工具全栈测评

边缘 AI 轻量化部署实战：TinyML 在 STM32H5 上的模型压缩与实时推理优化

紫檀红木黄花梨回收，京顺斋上门服务，专业估值，诚信变现 - 深鉴新闻

《从零构建OpenClaw Docker镜像：高效部署与无缝迁移》

终极指南：如何免费解锁Wand专业版功能的完整教程

基于RP2040的硬件定义与软件定义CPU融合设计实践

金山云Q1营收同比增长37.2% 调整后EBITDA率提升至27.6%

Activiti 5.22 保姆级入门：从25张表结构到第一个流程实例

windows上的codex安装后无法使用应用内的浏览器