当前位置: 首页 > news >正文

N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

【导语:N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成,扫描 1000 个安全公告,公布了各模型的平均得分等数据。】


N - Day 基准测试:衡量语言模型网络安全能力

N - Day 基准测试由 Winfunc Research 发起,旨在衡量大型语言模型(LLM)的实际网络安全能力,特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文,杜绝作弊。该测试具有适应性,测试用例会每月更新,模型集也会升级到最新版本和检查点,且所有记录都可公开浏览。

最新测试结果:各模型表现大揭秘

最新基准测试已完成,扫描了 1000 个安全公告,接受案例 47 个,跳过案例 953 个。在平均得分排行榜中,openai/gpt - 5.4 以 83.93 分位居榜首,z - ai/glm - 5.1 以 80.13 分紧随其后,anthropic/claude - opus - 4.6 得 79.95 分,moonshotai/kimi - k2.5 为 77.18 分,google/gemini - 3.1 - pro - preview 则是 68.50 分。

从发现模型的数据来看,z - ai/glm - 5.1 提交 44 次,平均发现数为 1.23;openai/gpt - 5.4 提交 44 次,平均发现数 1.07;anthropic/claude - opus - 4.6 提交 43 次,平均发现数 1.16;moonshotai/kimi - k2.5 提交 37 次,平均发现数 1.05;google/gemini - 3.1 - pro - preview 提交 44 次,平均发现数 0.91。

测试运行详情:时间与状态全知晓

此次测试创建时间为 2026 年 4 月 13 日下午 5:03,开始时间与之相同,完成时间是晚上 8:53,且无失败情况。近期还有多条评判运行和发现运行的记录公布。

编辑观点:N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考,不同模型得分和表现差异反映其在漏洞发现能力上的差距,将推动模型研发的优化和竞争。

http://www.jsqmd.com/news/643689/

相关文章:

  • LaTeX Cookbook by Eric
  • Qt容器隐式分离陷阱:深入剖析C++11范围循环与QStringList的交互
  • 2026建筑设计AI工具排名|ADAI 渲境AI双榜首,实测选出行业真标杆
  • 5大核心优势解析:为什么res-downloader成为跨平台资源下载的首选工具?
  • 联想拯救者工具箱终极指南:如何用轻量级工具完全替代官方臃肿软件
  • 电磁兼容故障整改-辐射发射超标
  • PMD自定义规则开发终极指南:打造专属代码质量检查工具
  • 5分钟搞定!Ollama部署DeepSeek-R1推理模型,小白也能用的AI解题工具
  • 华硕笔记本终极性能控制指南:GHelper完整使用教程
  • 如何配置和管理Vibe Kanban的执行重试功能:提升开发效率的完整指南
  • Alfred Workflows核心组件深度解析:10个高效工具详解
  • 彻底掌控Dell G15散热性能:开源神器TCC-G15完全指南
  • 终极指南:如何用AlphaZero General在多游戏中应用强化学习
  • AI 辅助编程浪潮下,开发者如何平衡使用与责任?
  • 多模态大模型端侧落地难?揭秘TensorRT-LLM+ONNX Runtime双引擎协同部署的7个关键阈值指标
  • CMAKE实战指南:宏定义的五种高效配置策略
  • Blender 3MF插件深度实战:构建高效3D打印工作流的专业指南
  • 终极指南:PointNet激活函数性能大比拼 ReLU、LeakyReLU与Swish深度测试
  • 129. 无法从模板配置新的 RKE 集群:无法验证 S3 备份目标配置
  • 芯洲SCT SCT2A23ASTER ESOP-8 DC-DC电源芯片
  • EtherCAT 从站控制器寄存器地址与功能速查
  • 科哥定制FunASR镜像实测:一键部署中文语音识别,小白也能轻松上手
  • 5种实战技巧突破云存储限制:网盘直链下载助手深度指南
  • Z-Image-Turbo应用场景:创意设计中的AI绘画实战分享
  • 【Oracle篇】伪列之Version Query:全链路追踪行数据变更的所有记录(除记录行数据的最后修改时间外,还可追溯其修改前后的内容及对应的修改时间)(第二篇,总共六篇)
  • 2026年江苏ERP公司推荐及行业服务能力分析 - 品牌排行榜
  • 探秘phpDocumentor管道处理:从代码到文档的高效转换全过程
  • 霜儿-汉服-造相Z-Turbo社区分享:在CSDN发布你的使用心得与作品
  • Chart.js项目实战:电商用户行为追踪完整指南
  • Xcodeproj 入门指南:如何用 Ruby 自动化管理 Xcode 项目