当前位置: 首页 > news >正文

22岁天才小伙破解“AI黑箱“:融合DeepSeek思路,参数效率翻倍!

本报讯 人工智能领域近日传来震动性消息:一位年仅22岁的年轻创业者,仅凭公开资料和对"第一性原理"的深刻理解,竟成功推导出了Anthropic公司号称"捂得最严实"的Claude Mythos大模型核心架构,并将完整代码开源至GitHub,引发全球科技界广泛关注。

一位"少年天才"的硬核操作

这位名叫Kye Gomez的创业者,是初创公司Swarms的创始人。此前他曾创办Agora Labs,在2021年至2024年间同时担任三家公司的联合创始人兼CEO,业务覆盖AI深科技、媒体、食品科技等多个领域。据其个人主页显示,Kye Gomez高中毕业后便投身创业,如今已是一位在AI领域颇有建树的年轻企业家。

事情起因于Kye Gomez发布的一篇技术帖子,详细阐述了他对Claude Mythos的架构分析。他称,自己并没有通过任何非法手段获取内部资料,而是通过"第一性原理",对Anthropic公开发表的论文进行深度研究,最终从0到1推导出了Mythos的核心设计。

"原地跑圈"的颠覆性创新

据分析,Claude Mythos的核心并非传统意义上的"更大Transformer",而是一种名为"循环深度Transformer"(RDT)的架构。

传统大模型开发模式类似于"盖高楼"——通过不断增加层数来堆叠参数,参数越多,模型越大,显存占用和训练成本也越恐怖。而RDT则采取"原地跑圈"的思路:同一个计算模块在一次前向传播中循环执行最多16次,每循环一次,隐藏状态更新一次,相当于"多想了一步"。

更关键的是,所有思考都在连续潜空间中进行,无需像思维链(CoT)那样每一步都输出可见的Token。这属于真正的"迭代推理",而非简单的重复计算。

融合DeepSeek思路,参数效率翻倍

为了解决推理"深度"的同时兼顾"广度",OpenMythos在循环核心的每个前馈网络层都替换成了混合专家(MoE)结构,设计上借鉴了DeepSeek-MoE的架构思路——大量细粒度的路由专家、每个Token只激活部分专家、少量"共享专家"负责吸收跨领域通用知识。

实验数据显示,一个770M参数的循环模型,在同等训练数据下,能达到1.3B标准Transformer的下游任务质量。换言之,用一半的参数,干了同样的活。

对行业的影响与未来展望

这一突破对行业意味着重大变革。对消费级硬件而言,以往运行高质量模型往往需要A100级别的GPU,而现在,"推理深度是时间换空间"——不需要更多显存,只需多跑几圈即可。

更深远的影响在于,这一发现可能改写AI的Scaling法则。未来的竞争焦点,可能不再是参数规模和算力堆砌,而是模型"思考深度"的优化。

Kye Gomez本人表示,这目前仍是理论层面的突破,需要进一步验证。但他已开源全部代码,项目地址为GitHub上的OpenMythos,让全球开发者能够在此基础上继续探索。

当闭源实验室的技术优势可能被一个22岁创业者通过公开信息轻易重建时,真正的护城河或许已从"架构壁垒"转向"持续创新能力"。这一事件,无疑为整个AI行业敲响了创新的警钟。

http://www.jsqmd.com/news/674180/

相关文章:

  • 人工智能概览
  • 基于Flask和MySQL的维修管理系统是否能让3-5家连锁店共用
  • EF Core 10向量扩展“黑盒”逆向工程报告(反编译+IL注入验证):官方未文档化的QueryFilter向量化机制揭秘
  • SAP GUI 760环境下,ABAP Dialog Screen开发的5个新手常见坑及避坑指南
  • 2026年雄县全屋定制工厂实力大揭秘
  • TCC本质用的是不是2PC模型??
  • Element UI表格太长省略号?手把手教你用原生JS实现一个更通用的overflow-tooltip组件
  • 从命令行到IDE:OMNeT++ 4.6安装后,如何高效创建你的第一个网络仿真项目?
  • 3分钟掌握B站缓存视频转换:m4s-converter让你的收藏永久保存
  • 雀魂牌谱屋:3步打造你的麻将数据分析中心,告别盲目游戏时代
  • ABB ACS580/ACS880/ACS550/ASC510变频器故障排查和维修
  • 拆解与你眼中不一样的“元编程”
  • 从“几周”到“几小时”:iSolarBP光伏设计软件一站式搞定光伏项目全流程
  • C# 13 + Blazor 8.1 + WASM AOT全栈重构指南,从.NET 8迁移到.NET 10的7个致命陷阱,,
  • 网络工程师-智能流量管控实战(一):策略路由与路由策略精讲
  • JavaScript中利用new-target检测函数是否被new调用
  • 游戏循环、帧率控制与C++11时钟:用std::chrono实现稳定60FPS的实战指南
  • 基于Flask和MySQL的维修管理系统 这种框架适合快速开发web网页吗
  • 一篇文章掌握:什么是动态转移方程
  • 2025CCPC郑州部分题解
  • 网络工程师-边界安全与远程接入实战(二):NAT 配置全解
  • 【仅限首批Early Access用户】EF Core 10向量扩展预发布配置包泄露:含OpenAI+Ollama双嵌入管道模板(限时48小时)
  • 企业级多模态RAG落地倒计时——Dify 2026正式版将于Q2强制启用多模态审计日志,你现在适配了吗?
  • SQL如何高效提取每组首条记录 ROW_NUMBER优化策略
  • 中国半导体展哪家好?国内优质展会甄选,本土芯势力平台 - 品牌2026
  • 雷军15小时一镜到底测SU7续航跑1313公里,撕下了汽车评测行业的遮羞布
  • 广州云计算培训学校排名:2026年优质机构推荐哪家好一文弄懂
  • 中国半导体展推荐?2026年优质半导体展赋能产业发展及展会推荐 - 品牌2026
  • AVIF 与 PNG:下一代图像格式如何改变网页视觉与性能
  • 中国半导体展会哪家好?2026年国内头部展会盘点助力 - 品牌2026