N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名
【导语:N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成,扫描 1000 个安全公告,公布了各模型的平均得分等数据。】
N - Day 基准测试由 Winfunc Research 发起,旨在衡量大型语言模型(LLM)的实际网络安全能力,特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文,杜绝作弊。该测试具有适应性,测试用例会每月更新,模型集也会升级到最新版本和检查点,且所有记录都可公开浏览。
最新基准测试已完成,扫描了 1000 个安全公告,接受案例 47 个,跳过案例 953 个。在平均得分排行榜中,openai/gpt - 5.4 以 83.93 分位居榜首,z - ai/glm - 5.1 以 80.13 分紧随其后,anthropic/claude - opus - 4.6 得 79.95 分,moonshotai/kimi - k2.5 为 77.18 分,google/gemini - 3.1 - pro - preview 则是 68.50 分。
从发现模型的数据来看,z - ai/glm - 5.1 提交 44 次,平均发现数为 1.23;openai/gpt - 5.4 提交 44 次,平均发现数 1.07;anthropic/claude - opus - 4.6 提交 43 次,平均发现数 1.16;moonshotai/kimi - k2.5 提交 37 次,平均发现数 1.05;google/gemini - 3.1 - pro - preview 提交 44 次,平均发现数 0.91。
此次测试创建时间为 2026 年 4 月 13 日下午 5:03,开始时间与之相同,完成时间是晚上 8:53,且无失败情况。近期还有多条评判运行和发现运行的记录公布。
编辑观点:N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考,不同模型得分和表现差异反映其在漏洞发现能力上的差距,将推动模型研发的优化和竞争。
