当前位置: 首页 > news >正文

Karpathy 罕见激动那一夜:Claude Fable 5 把“质变“两个字甩在了桌上

每天更新,带你读懂科技圈。
今日深度:Anthropic 凌晨发布 Claude Fable 5 与 Mythos 5,SWE-Bench Pro 80%、定价翻倍、6 月 22 日后转计费——三件事拆开看就是当下大模型竞争的全部张力。这一次最值得讨论的不是基准分,而是它背后的双模型分发哲学和"安全即基础设施"的姿态。


一、一个被网友刷屏的细节:Karpathy 这次没装

凌晨两点的时候,X 上有人开始截图 Karpathy 那条推文。

熟悉他风格的人都知道,Andrej Karpathy 平时发模型评价偏冷静,喜欢用 “interesting”、“non-trivial”、“a step forward” 这种留有余地的词。但这次他直接写了一句:“This feels like a genuine phase change. Version-bump-worthy.”

——“质变级”,“配得上版本号大跳”。

放在他过去两年所有对模型的评价里,这是少有的情绪外溢。也是这条推文,让 Anthropic 这次 Claude Fable 5 / Mythos 5 的发布在没有大规模 PR 预热的情况下,半夜冲到了 X 和 Hacker News 的首页。

更耐人寻味的是 Anthropic 这次的发布姿态:没有发布会、没有提前邮件、没有 Demo Day。就一篇官方博客、一个 API key 更新、加一句几乎像免责声明的话——“Fable 5 现在能用,但 6 月 22 日之后订阅用户就用不了了。”

这种"先甩货再解释"的发法,过去更像是 OpenAI 的剧本。Anthropic 这次抢了一个上半场,而且抢得很硬。

二、Fable 与 Mythos:一对双胞胎模型的分发哲学

要看懂这次发布,得先搞清楚一件事——Fable 5 不是一个独立的新模型,它是 Mythos 5 的"对外释出版本"

按 Anthropic 自己的说法:

  • Mythos 5:底层的全能力模型,“the company has been talking about for the last few weeks”,过于强大以至于原版"too dangerous to release",目前只对 Project Glasswing 成员(也就是 Anthropic 内部安全研究项目的合作方)开放。
  • Fable 5:Mythos 5 同源模型,但加装了一整套安全护栏(guardrails),覆盖恶意软件构建、生物化学武器、模型蒸馏等敏感场景。

这种"同核异壳"的双模型架构,在大模型行业里其实是第一次被正式产品化。

过去厂商也做安全护栏,但通常是同一个模型 + 一套 RLHF 或拒答层;护栏弱的时候被骂"危险",护栏强的时候被骂"装弱智"。Anthropic 这次的做法是直接把两件事分开:研究侧保留全能力的 Mythos,给生态发的是经过护栏处理的 Fable

这有几个非常直接的产品后果:

  1. 能力天花板和安全天花板可以独立迭代。Anthropic 不必担心给 Fable 加护栏会"伤害"底层模型,因为底层模型一直在 Mythos 里跑。
  2. 企业客户能更精细地选择风险敞口。Project Glasswing 这类有强审计能力的客户可以接 Mythos,普通 SaaS 接 Fable。
  3. "安全"从一项功能变成了一条产品线。Fable 的卖点不再只是"它聪明",而是"它聪明且不会害你"。

这套打法对 OpenAI 和 Google 杀伤力比看上去大。因为 GPT-5.5 和 Gemini 3.1 Pro 的 SWE-Bench Pro 成绩——58.6% 和 54.2%——已经被 Fable 80% 拉开了大半个身位。如果 OpenAI 跟进做双模型,等于承认自己之前的安全策略不够分层;如果不跟,企业市场就有越来越多客户会被 Anthropic 用"Mythos 接口"挖走。

三、把分数翻出来看:Fable 5 到底强在哪里

光说"质变"是没意义的,把基准拉出来才有讨论价值。Anthropic 这次官方公布的几个数字相当扎眼:

维度Fable 5Mythos 5(无护栏)Anthropic Opus 4.8OpenAI GPT-5.5Google Gemini 3.1 Pro
SWE-Bench Pro80.0%80.4%69.2%58.6%54.2%
长任务保持能力跨越百万 token显著弱明显弱明显弱
知识工作(图表/文档)“明显提升”基线基线基线

几个观察:

第一,护栏几乎没有性能税。Fable 80.0 对 Mythos 80.4,0.4 个百分点的差距,几乎可以视作噪声。这说明 Anthropic 这次的护栏是"事后路由"型而非"事前阉割"型——遇到敏感请求把任务交给 Opus 4.8 处理,本体能力没动手术。

第二,把 Anthropic 自己的旗舰 Opus 4.8 拉开了 10 个百分点以上。这才是真正的"version-bump-worthy"。一个公司的新模型把自家旗舰打 10 分,意味着这是一次架构或训练策略级的升级,不是 fine-tuning 级。

第三,对外是一刀切的代差。GPT-5.5 和 Gemini 3.1 Pro 的差距,已经接近 GPT-3.5 和 GPT-4 之间那个让所有人惊呼"换代了"的鸿沟。Stripe 给出的案例是用 Fable 5 一天内现代化了一份 5000 万行的 Ruby 代码库——按 Anthropic 的口径,“没有 Fable 5 的话这事得花几周到几个月”。

支撑这些分数的,是 Anthropic 反复强调的"长任务专注力"。官方原文用的措辞是 “stay focused across millions of tokens in long-running tasks and improve its outputs using its own notes”——百万级 token 的任务里持续聚焦,并且能用自己写下的笔记反过来改进输出。

这句话对做 Agent 的人是个信号。过去 LLM 在长任务里的失败模式很统一:上下文越长越分心、越分心越走偏、越走偏越要靠 prompt engineering 救场。Fable 5 如果真的在这件事上有质变,那"Agent 自己跑半天再来交付"的工作模式才算第一次有了模型层支撑。

四、定价、配额、数据留存:商业策略里的三处咬合

如果你以为 Anthropic 这次只是"放了个大招然后免费给你用",那要失望了。这次发布最有意思的恰恰是商业设计——三件事咬合得非常紧:

定价:$10 / $50 per million tokens,是 Opus 价格的两倍。
进入门槛高了一倍,但企业用户大概率会买单——因为 SWE-Bench Pro 上 80% 对 58.6% 的差距,意味着一次复杂任务可能少跑两轮,总成本反而下降。Anthropic 在赌一件事:模型能力差距足够大时,定价权在卖方

订阅渠道有 6 月 22 日的截止线。
Pro / Max / Team / Enterprise 用户现在可以白嫖 Fable 5,但 6 月 23 日之后切到 usage credits 计费。官方理由是 “capacity”——产能不够。坦白讲,这个说辞半真半策略:真的部分是英伟达 H200 / B200 在 Anthropic 这边的供给确实紧张;策略的部分是——让所有人在 12 天内疯狂体验一次"质变模型",6 月 23 日开始天然会有一波"我愿意付费继续用"的转化。这是教科书级的产品锚定。

数据留存的硬要求:用 Mythos-class 模型就必须接受 30 天数据保留。
这是这次发布里最容易被忽略,但对企业用户影响最大的一条。Anthropic 给出的理由是要"防御复杂的新型攻击,包括跨请求的越狱",承诺不用于训练、所有人为访问会被记录。但对金融、医疗、政府这类客户来说,"30 天保留"四个字本身就是合规否决项。Anthropic 显然清楚这一点,但还是写了进去——这意味着他们认为安全侧的收益高于一部分企业客户的流失。

三件事放在一起看就是一句话:Anthropic 想用 Fable 5 在 12 天内重新定义市场预期,然后用价格和合规门槛筛出真正愿意为安全付费的客户。

五、对竞争格局的三层影响

最后说一下产业层的余波。

对 OpenAI:GPT-5.5 在 SWE-Bench Pro 上 58.6% 这个分数,过去一周内还在被很多分析师称作"基本和 Opus 4.8 持平、略胜 Gemini"。Fable 5 出来之后,“持平"变成了"代差”。这意味着 OpenAI 必须把传闻中的 GPT-6 发布节奏前移,否则 12 月之前都要在 coding agent 这条最赚钱的赛道上掉血。

对 Google:Gemini 3.1 Pro 的 54.2% 是最尴尬的位置。Google 这一两年的故事一直是"用价格和上下文窗口换市场"——便宜、上下文长、多模态强。但当 Anthropic 既能做到长任务专注(“focused across millions of tokens”)又能在能力上拉开 25 个百分点时,Gemini 的多模态优势就显得有点单薄。Sundar Pichai 在下一次发布会上必须给出比"价格更便宜"更硬的故事,否则 Google 在 enterprise coding 这块的份额会被持续蚕食。

对开源生态:DeepSeek、Qwen、Llama 这一波模型的策略本来是"差不多够用、便宜、可控"。当 Fable 5 把基准拉到 80%,开源阵营和闭源旗舰之间的能力差距重新拉大。短期看,开源仍然能吃下大量"够用就行"的场景;但长期看,对那些需要长任务自主性、跨百万 token 注意力保持的真正 Agent 场景,开源能不能跟上是个开放问题。

对企业自建 AI 团队:这是最被忽略的一层。过去半年的趋势是"我们要自己微调模型",理由是"通用模型不够好"。Fable 5 之后,这条理由会被严重弱化。当 SOTA 模型在你最难的任务上交付 80% 准确率时,自建团队的 ROI 公式整个要重写。可以预期未来 3-6 个月里,会有一波企业放弃自有大模型项目,转向"用 Fable + 工具链"的薄壳战略。

六、写在最后:值得期待的不是分数

回到 Karpathy 那句"phase change"。我自己看完这次发布,最有感觉的不是 80% 那个数字,也不是 12 天的限时窗口,而是 Anthropic 做的一个隐藏选择——把 Mythos 锁在内部,把 Fable 推向市场

这是大模型行业第一次有公司明确说:我有一个更强但不安全的版本,我选择不发它。

这件事的象征意义远大于它的工程意义。它意味着 Anthropic 第一次把"安全"做成了产品差异化的硬资产,而不是一句 PR 话术。Fable 5 接下来 12 天的体验会刷屏,但真正决定 Anthropic 未来 12 个月地位的,是 Mythos 那道关上的门。

6 月 22 日之后,Fable 5 的体验会被收回大半。在那之前,建议每个做 AI Agent、Coding Copilot、知识工作工具的开发者都去亲手测一次:长任务保持力是否真的有质变?跨百万 token 的注意力是否真的不掉链子?护栏会不会在你的实际场景里被频繁触发(Anthropic 自己说不到 5% 会被路由到 Opus,但实际值要等真实使用数据)?

这些问题的答案,会决定你接下来一年要不要把架构押在 Anthropic 这条线上。

模型版本一直在大跳,但能让 Karpathy 破例说"phase change"的,毕竟是少数。


参考资料

  • The New Stack: Anthropic launches Claude Mythos/Fable 5, but you better try it soon
  • Karpathy on X: “This feels like a genuine phase change. Version-bump-worthy.”
  • Anthropic 官方发布博客(含 SWE-Bench Pro 数据、Fable 5 / Mythos 5 定价与配额说明)
  • Stripe 案例:Fable 5 一天完成 5000 万行 Ruby 代码库现代化
http://www.jsqmd.com/news/989338/

相关文章:

  • 全品美学鉴赏视角】四相共生赋能多元质感:解锁狼山石四大单品的专属审美内核
  • 别再为51单片机Bootloader中断跳转发愁了!手把手教你用Keil和汇编搞定A9129F6双程序中断
  • 影刀RPA进阶教程_自动化数据看板搭建实战
  • 2026 年 6 月亲测靠谱双边封包装机
  • Coze Studio开发效能跃迁:从架构洞察到智能工作流构建
  • GTAIV.EFLC.FusionFix终极指南:让经典游戏在现代系统重获新生
  • 对标Pandabuy业务架构,从零自研反向海淘代购集运系统
  • 免费好用的Obsidian云同步方案:坚果云插件全测评
  • 流体力学控制专用强化学习训练工具:SAC+模仿学习+方柱绕流仿真+多进程加速
  • 港科大EMBA硬核科技背景解析:科技赋能商业的高端高管教育标杆
  • 数据的加密与解密(02:12)
  • 【电力系统】改进二进制粒子群优化算法解决热电联产机组组合问题附matlab代码
  • aardio封装C#库实战:以ScottPlot图表控件为例,分享我的踩坑与优化记录
  • 2026年 凤城水煮鹌鹑蛋罐头批发厂家推荐:优质原料与鲜嫩口感实力之选,厂家直批 - 品牌发掘
  • OpenClaw 实战:搭一个自动推送热点素材的灵感引擎,从此选题不枯竭(2026 保姆级教程)
  • 告别繁琐接线!用HD7279A一颗芯片搞定8位数码管和64键键盘,附STM32完整工程
  • Leantime项目管理平台:为非项目经理构建的智能协作解决方案
  • 用51单片机和PCF8591做个四路电压表,附Proteus仿真和完整代码(含LCD1602显示)
  • 技术揭秘:BIMserver如何用流式架构重塑建筑信息管理
  • 多模态机器学习在科学图表验证中的应用与挑战
  • 3步快速搭建专属AI数字人:OpenAvatarChat完整实战指南
  • TradingAgents-CN:如何构建专业的AI金融分析决策系统
  • 3分钟搭建个人付费墙绕过工具:13ft Ladder终极指南
  • iPad文献阅读神器推荐!Scholaread等7款平板端学术工具深度测评
  • 微信小程序计算机毕设之基于微信小程序的零工市场服务系统基于springboot+微信小程序的零工市场服务系统小程序(完整前后端代码+说明文档+LW,调试定制等)
  • Fast-GitHub终极指南:三步实现GitHub下载速度10倍提升
  • BilibiliDown终极指南:轻松实现B站视频批量下载与音频提取
  • 2026市面上可靠的地坪翻新公司口碑排行榜 - 品牌排行榜
  • 数据的加密与解密(02:07)
  • 如何3步搞定顽固窗口:WindowResizer窗口管理神器使用指南