当前位置：首页 > news >正文

Anthropic 的 244 页模型卡警示：Claude Mythos Preview 正让代码安全成为 AI 时代最紧迫的议题

news 2026/7/25 21:37:56

一、一句话总结

Anthropic 发布尚未商业化的 Claude Mythos Preview，用一份 244 页的模型卡向世界展示了 AI 在代码漏洞发现上的惊人能力——它自主找到 OpenBSD 潜伏 27 年的漏洞，也让 Linux 内核 root 提权成为可能。这不仅是一次技术突破，更是对整个 AI 安全范式的深刻警示。

二、原文要点

惊人的漏洞发现能力：Claude Mythos Preview 在一个月测试中，自主发现了主流操作系统、浏览器等代码中"数千个"高危漏洞，其中 99% 尚未修复。具体案例包括：在 OpenBSD 系统中发现一处 TCP 响应漏洞，潜伏 27 年从未被发现；在 Linux 内核中发现可实现 root 提权的漏洞链。
能力并非刻意训练：Anthropic 明确表示，Claude Mythos Preview 并未针对安全任务做过专项训练。它的安全能力是从编程、推理和自主行为训练中涌现的——这意味着，随着模型在通用编程能力上的持续提升，其"副作用"式的安全威胁将不可避免地上升。
244 页模型卡：史上最长：这是 Anthropic 首次在未发布商业模型的情况下发布模型卡，详细披露了模型能力、测试方法、性能数据和潜在风险。
Project Glasswing 安全联盟：Anthropic 联合 AWS、Apple、CrowdStrike、Google、JPMorgan、Microsoft、Nvidia 等 40 余家企业，发起 Project Glasswing，投入 1 亿美元 API 额度专项支持漏洞发现，同时向开源维护组织捐赠 400 万美元支持主动漏洞修复。
性能数据亮眼：在 Anthropic 自测中，Claude Mythos Preview 显著超越了 Claude Opus 4.6、OpenAI GPT-5.4 和 Google Gemini 3.1 Pro 在多个主流基准测试上的表现。

三、我的理解与延伸思考

这件事最让人不安的地方，不是"AI 能找到漏洞"这件事本身，而是它的涌现机制。Claude Mythos Preview 并不是被训练成安全工具的——它被训练成一个强大的编程推理模型，安全能力只是副产品。这意味着：

安全的边界正在被重新定义：传统安全依赖"防御者思维"——发现漏洞、修补漏洞。但当 AI 同时具备发现漏洞和利用漏洞的能力时，这条防线正在被双重打破。
开源生态面临系统性风险：Project Glasswing 将大量资源投向开源维护，是因为开源代码的维护者往往是个人或小型团队，根本无力应对 AI 级别的大规模漏洞扫描。
"负责任的不发布"悖论：Anthropic 选择不商业化 Claude Mythos Preview 是负责任的，但这份模型卡的存在本身，就意味着这个能力已经被训练出来——只要有足够的计算资源，任何人都可以训练出类似甚至更强的模型。安全风险不会因为"不发布"而消失。