当前位置: 首页 > news >正文

AI巨头激战:Claude神话版与GPT5.6对决,这周模型圈太炸了

本文整理自B站「AI巨头激战:Claude神话版与GPT5.6对决」,通过音视频转录总结神器Ai好记进行转录整理,以下为视频转文字整理后的内容。

这一周的AI圈,消息多到让人跟不上。

Anthropic 的 Claude Mythos(神话版)最快可能本周发布,OpenAI 的 GPT 5.6 已经选定发布候选版本,Google 的 Gemini 3 Flash Preview 泄露样张流出,还有一个叫 JNexT-2 的开源智能体模型悄悄跑赢了 GPT 5.5。

三家巨头加上开源社区,全挤在同一周里出牌。下面把核心信息串联一下。

Claude Mythos / Fable 5:Anthropic 的正面回击

多方消息指向同一个结论——Anthropic 最快发布 Claude 的下一代模型。

Mythos 级别的公开版本

API 文档中已经出现了claude-mythos-5的模型标识符。红队测试已经完成,模型演示视频也已制作完毕。Polymarket 上的预测市场显示,目前有 92% 的概率认为 Anthropic 将在本月发布新模型。

泄露信息中出现了两个值得关注的名字:claude-fable-5claude-fruitcake-eap

据消息人士称,Fable 5 本质上就是 Mythos 级别,底层可能是同一个模型,只是在前置层增加了面向公众的安全限制。简单来说,Mythos 是原生前沿模型,Fable 5 是更安全的公开版本。

一次生成 2000+ 行代码

泄露的生成案例相当惊人。

Fable 5 仅凭一次提示就完美复刻了经典游戏「割绳子」,包含多个关卡,功能与原版完全一致。关键是在低思考模式下就做到了——爆料人提到不同思考模式之间的质量跨度非常明显,开启最高性能后效果会更夸张。

更值得注意的是,它一次能输出 2000 多行代码,且没有出现常见的"偷懒"问题(即模型在长输出中偷工减料,只给出不完整版本)。这对于开发者来说,正是对前沿模型的核心期待。

东京研讨会时间线

Anthropic 正在东京举办研讨会。按照以往经验,每逢这类活动他们总会发布新东西——可能是模型更新,也可能是 Claude Code 功能升级。6 月 10 日的研讨会时间点,与新模型发布的预期高度吻合。

GPT 5.6(代号 Kindle):OpenAI 的发布候选已锁定

Kindle Alpha 胜出

上期消息中提到 OpenAI 正在测试两个 GPT 5.6 检查点:KeplerKindle。两者相隔不到一天先后上线,早期对比结果喜忧参半,部分测试显示 Kindle 比起 Kepler 甚至还有轻微退步。

但最终,OpenAI 选定Kindle Alpha作为发布候选版。今天在 Design Arena 中看到的版本,已确认指向 GPT 5.6 的最终模型节点。

零样本图像转代码

泄露案例展示了 Kindle 的强悍能力——仅靠一句提示词,且不借助任何工具,它直接重构了 Xbox 控制器的外观。这说明模型在视觉布局理解和图像到代码的转化方面,进化远超预期。

随着 Claude 进入设计领域,以及此前 Claude Alpha 的泄露传闻,OpenAI 这次在视觉生成领域的发力,看起来像是在提前卡位。

秘密提交 IPO 申请

除了模型本身,还有一条重磅消息——OpenAI 已秘密提交 S-1 上市申请文件。虽然没有明确的时间表,但通过秘密递交,他们就掌握了主动权,一旦时机成熟就能更快推进上市。

如果 OpenAI 最终与 Anthropic 等公司并肩上市,甚至可能包括 SpaceX,这有望成为科技史上规模最大的一波 AI IPO 热潮。

Gemini 3 Flash Preview:谷歌的老毛病还在

谷歌即将推出的 Gemini 3 Flash Preview 最近有一些输出样张流出。

目前看来,它似乎仍存在那个老问题——懒惰生成。当你要求它生成详细内容时,它往往不会完整执行,只给出一个简化或不完整的版本。这是过去 Gemini 模型最受用户诟病的问题之一。

不过平心而论,现在流出的很可能只是个尚未完工的测试版本。谷歌仍在持续迭代,最终发布时的表现往往更好。这种情况在之前的谷歌模型中也出现过。

JNexT-2:被忽视的开源黑马

有一个容易被忽略的新模型——JNexT-2。这是一个全新的开源智能体模型系列,不只是为了思考而设计,而是在编程、搜索和工具调用中实际执行任务。

它的核心特性之一是自适应思维模式:模型能自动根据任务复杂度动态分配推理资源,节省约 20% 的 Token 消耗,且不损耗性能。

在 WAbank、MinalBench 和 QA 等基准测试中,它的表现逼近 GPT 5.5 和 Claude 3 Opus 等顶尖模型。在浏览器基准测试中,甚至击败了 GPT 5.5。而且它开放了权重,开发者可以第一时间上手本地测试。

其他值得关注的更新

除了三大巨头的正面交锋,还有一些技术动态值得留意:

  • NotebookLM 升级:接入云端安全计算机,新增智能体化研究流程,用户只需提供零散构思,Notebook 就能自动检索并添加网络资源

  • Kimi for Word:发布桌面应用,支持同时启动最多 300 个本地智能体并行处理任务。通过 WebBridge 系统调用浏览器,实现自动化研究

  • 苹果 WWDC26:发布 Apple Intelligence,Siri 获得跨应用理解能力,能翻找短信、邮件、照片来回答问题并直接执行操作。同时确认与谷歌在下一代 Apple Intelligence 上展开合作

小结

这周的核心看点是:

  • Claude Mythos/Fable 5 可能随时发布,正面回击 GPT 5.6; GPT 5.6 选定 Kindle
  • Alpha,零样本图像转代码能力亮眼;
  • Gemini 3 Flash Preview 还需要再打磨;而开源阵营的 JNexT-2已经悄悄追了上来。

模型能力的迭代周期正在肉眼可见地缩短。从每月发布到每周更新,巨头之间的竞争已经进入了"周更"模式。

以上内容由 Ai好记 转录整理。
Ai好记是一款音视频转图文笔记的 AI 学习助手,支持 B站、抖音、小宇宙等平台链接及本地音视频文件,转入后自动生成精华速览、思维导图和结构化笔记,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

http://www.jsqmd.com/news/996427/

相关文章:

  • Unix垃圾回收器重制版:重写过程、漏洞分析与复现方法揭秘
  • Windows虚拟网络声卡Scream:轻松实现局域网音频传输的完整教程
  • 从ChatGPT到芯片验证:AI如何‘读懂’SystemVerilog代码并帮你找Bug?
  • AI能预测下一条谣言吗?网络谣言传播背后的技术攻防战
  • 从零构建企业级网络监控:LibreNMS实战部署与核心功能解析
  • 5大核心功能:League Akari如何成为英雄联盟玩家的智能游戏助手
  • 2026年宜宾全屋定制品牌怎么选?从环保板材到五行美学,六家本地企业深度解析! - 优质品牌商家
  • 064、社区 Skill 最佳实践:代码审查、安全审查、测试驱动开发的技能化
  • Wan2.2-VAE:16×16×4高效压缩技术的终极指南
  • 深入拆解:连续J/F-1模式Doherty功放中的ZTC与Zpmn网络,如何用ADS进行阻抗控制与谐波优化?
  • Fiddler抓取HTTPS请求数据乱码问题的完整解决方案与步骤指南
  • NDS游戏资源编辑终极指南:如何使用Tinke零基础提取和修改任天堂DS游戏文件
  • 从数字控制器设计到机器人:离散系统稳定性在现实项目中的‘坑’与‘解’
  • 从FPD-Link到MIPI:图像传输接口的带宽计算到底有啥不同?一个案例讲清楚
  • 2026年杭州GEO优化排名十佳公司,究竟花落谁家?快来一探究竟!
  • 2026年办公智能语音转写领域观察百度网盘录音转文字实测对比怎么选
  • 基于SpringBoot+Vue的交通管理在线服务系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】
  • 2026年混凝土脱模剂行业口碑盘点:哪些公司值得关注? - 优质品牌商家
  • 独家|实探Rokid门店,偷拍整改声明之外的灰色缝隙
  • 062、Skill 组合与编排:多技能协同完成复杂任务的设计模式
  • 从AMD 3D V-Cache到手机CMOS:一文看懂混合键合(Hybrid Bonding)如何改变你的设备
  • 系统架构设计师-计算机系统基础核心考点精析
  • 从工厂到云端:拆解Android 13 RKP如何重塑设备密钥管理与安全认证
  • SART vs OS-SART:在低剂量CT扫描中,如何选择与调参才能又快又清晰?
  • QR 准谐振反激架构:当下中小功率快充的主流选择
  • 计算机毕业设计之基于大数据的淘宝电子产品数据分析的设计与实现
  • ECOD异常检测模型的可解释性到底有多强?手把手教你拆解每个特征的“异常贡献度”
  • 用AI一键总结B站长视频,学习效率直接提升10倍!
  • WinForm下用CEFSharp 110+拦截并改写WSS请求的可运行工程
  • 靠谱的长春西装定制哪个好