当前位置: 首页 > news >正文

Anthropic 的 244 页模型卡警示:Claude Mythos Preview 正让代码安全成为 AI 时代最紧迫的议题

一、一句话总结

Anthropic 发布尚未商业化的 Claude Mythos Preview,用一份 244 页的模型卡向世界展示了 AI 在代码漏洞发现上的惊人能力——它自主找到 OpenBSD 潜伏 27 年的漏洞,也让 Linux 内核 root 提权成为可能。这不仅是一次技术突破,更是对整个 AI 安全范式的深刻警示。

二、原文要点

  • 惊人的漏洞发现能力:Claude Mythos Preview 在一个月测试中,自主发现了主流操作系统、浏览器等代码中"数千个"高危漏洞,其中 99% 尚未修复。具体案例包括:在 OpenBSD 系统中发现一处 TCP 响应漏洞,潜伏 27 年从未被发现;在 Linux 内核中发现可实现 root 提权的漏洞链。
  • 能力并非刻意训练:Anthropic 明确表示,Claude Mythos Preview 并未针对安全任务做过专项训练。它的安全能力是从编程、推理和自主行为训练中涌现的——这意味着,随着模型在通用编程能力上的持续提升,其"副作用"式的安全威胁将不可避免地上升。
  • 244 页模型卡:史上最长:这是 Anthropic 首次在未发布商业模型的情况下发布模型卡,详细披露了模型能力、测试方法、性能数据和潜在风险。
  • Project Glasswing 安全联盟:Anthropic 联合 AWS、Apple、CrowdStrike、Google、JPMorgan、Microsoft、Nvidia 等 40 余家企业,发起 Project Glasswing,投入 1 亿美元 API 额度专项支持漏洞发现,同时向开源维护组织捐赠 400 万美元支持主动漏洞修复。
  • 性能数据亮眼:在 Anthropic 自测中,Claude Mythos Preview 显著超越了 Claude Opus 4.6、OpenAI GPT-5.4 和 Google Gemini 3.1 Pro 在多个主流基准测试上的表现。

三、我的理解与延伸思考

这件事最让人不安的地方,不是"AI 能找到漏洞"这件事本身,而是它的涌现机制。Claude Mythos Preview 并不是被训练成安全工具的——它被训练成一个强大的编程推理模型,安全能力只是副产品。这意味着:

  1. 安全的边界正在被重新定义:传统安全依赖"防御者思维"——发现漏洞、修补漏洞。但当 AI 同时具备发现漏洞和利用漏洞的能力时,这条防线正在被双重打破。
  2. 开源生态面临系统性风险:Project Glasswing 将大量资源投向开源维护,是因为开源代码的维护者往往是个人或小型团队,根本无力应对 AI 级别的大规模漏洞扫描。
  3. "负责任的不发布"悖论:Anthropic 选择不商业化 Claude Mythos Preview 是负责任的,但这份模型卡的存在本身,就意味着这个能力已经被训练出来——只要有足够的计算资源,任何人都可以训练出类似甚至更强的模型。安全风险不会因为"不发布"而消失。

四、推荐阅读

  • 原文:Claude Mythos Preview - Anthropic Red
  • 模型卡(PDF):Anthropic Claude Mythos Preview Model Card
  • Project Glasswing:Anthropic Glasswing

本文由 AI 整理发布,首发于博客园。原文版权归原作者所有。

http://www.jsqmd.com/news/648239/

相关文章:

  • drizzleDumper技术揭秘:ptrace与进程克隆的完美结合
  • 如何实现点云与矢量数据的完美融合:Potree Shapefile支持终极指南
  • Chart.js项目实战:AI科学发现辅助监控系统
  • Windows下保姆级教程:用环境变量自定义Ollama安装和模型存储位置
  • 终极 Chrono 调试指南:轻松掌握自然语言日期解析调试技巧
  • 终极指南:Fay开源项目技术路线图重大调整,全面响应社区反馈
  • 如何5分钟快速部署 YOLO ROS:从零开始的目标检测系统搭建
  • 三菱FX5U PLC故障诊断全攻略:从LED到GX WORKS3的精准排查
  • 从跌倒检测到平衡小车:用ADXL345传感器玩转STM32的几种实战应用
  • 如何用 entr 实现微服务架构的智能监控与协调:终极实战指南
  • 终极指南:5个步骤用Easy Rules实现实体关系驱动的智能规则推理
  • Eigen库打印的隐藏技巧:像Octave和Python一样优雅地输出你的矩阵数据
  • Katran多队列NIC支持:实现高性能负载均衡的终极指南
  • PMD与可再生能源系统代码分析:绿色技术的质量保障终极指南
  • SIT3490E:如何实现高可靠性的RS-485/422全双工通信
  • 从PSPNet到CoANet:Strip Convolution Block (SCB) 如何成为遥感图像分割的‘神器’?
  • 终极指南:Vuls代理配置自动化——环境变量注入与动态调整方案
  • Tsuru平台即服务终极指南:成功企业案例深度解析
  • 【多模态大模型数据标注流水线实战白皮书】:20年AI工程老兵亲授高精度、低噪声、可审计的工业级标注体系搭建全路径
  • 多模态大模型模型并行训练实战手册(Tensor Parallelism×Pipeline Parallelism×Expert Parallelism三重解耦)
  • Improved WGAN Training调参手册:超参数优化与模型性能提升的完整策略
  • CubiFS存储接口版本兼容性测试终极指南:矩阵构建与工具详解
  • 如何在Fork仓库中高效使用git-auto-commit-action:完整指南
  • 如何使用CookLikeHOC实现美食数据无缝迁移:从其他平台高效导入食谱的完整指南
  • PostgreSQL Docker自定义镜像开发:扩展功能和优化配置
  • Qwen3.5-35B-A3B-AWQ-4bit开源可部署价值:替代商业API年省成本超15万元案例
  • 企业级AI Agent成本效益分析:如何量化投入产出比
  • Brook静态编译终极指南:打造跨平台独立可执行文件
  • cd to... 高级设置教程:自定义终端主题与窗口管理
  • bcal 适配 HarmonyOS 构建指南