当前位置: 首页 > news >正文

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

听说Mythos太危险被封印?有人反手就给他“重建”并开源了。

OpenMythos,整合了公开研究和目前对Claude Mythos架构的主流推测。

OpenMythos实现了一个带有MoE路由机制的循环深度Transformer(Recurrent-Depth Transformer ,RDT),通过跨专家的权重共享和条件计算来实现迭代深度。

已有研究证实,这种架构仅用1半参数,就能获得与传统模型同等的效果。

不堆参数,堆循环

把这些碎片拼在一起的人叫Kye Gomez,22岁,Swarms智能体框架创始人。

他设计的RDT架构有三个核心点:

  • 让同一组权重最多反复跑16遍

  • 每次走不同的专家路径

  • 推理全程在潜在空间完成。

三者合力,让一个问题“想更多遍”比堆参数更高效。

过去两年,AI行业的标准打法是堆叠上百层不同的Transformer层,每层学到不同的东西,参数量直接爆炸。

RDT不用上百层,只用几层,最多反复循环跑16遍,每一遍都基于前一轮的结果继续计算。

同一个东西跑16遍,那不是浪费算力吗?

RDT的回答是不会重复,因为每次循环激活的是不同的“专家”。

循环块内部用了混合专家层,MoE路由器在每次循环中激活不同的专家子集。

MoE的设计上借鉴了DeepSeekMoE:大量细粒度路由专家,加少量始终在线的共享专家。

Gomez把这套设计总结成一句话:

MoE提供领域知识的广度,循环提供推理的深度。

广度和深度都有了,还需要一套稳定性机制保证循环不会跑飞。

来自UCSD和Together AI的新论文Parcae: Scaling Laws For Stable Looped Language Models提出LTI稳定循环注入让每轮不发散。

实验中用770M参数的RDT追平了1.3B参数的标准Transformer。

参数量少了近一半,效果一样。

最后一块拼图是连续潜在空间推理。16轮推理全部在hidden state向量中完成,不生成任何中间token。直到最后一轮循环结束,才输出答案。

这和Chain-of-Thought完全不同。CoT是“想一步,写一步,再想一步,再写一步”,中间token全部暴露给人类阅读。

RDT是“想完16遍才说一句话”,推理过程完全内化。

Kye还引用了俄亥俄州立大学的一篇论文,对循环Transformer架构做了两个关键实验。

第一个:系统性泛化。

训练时从没见过的知识组合,推理时循环Transformer照样能答对,标准Transformer直接失败。

这证明循环不是重复计算,是真正的”更深层思考”。

第二个:深度外推。

训练时只教了20跳推理链,测试时直接给30跳。

循环Transformer的应对方式就是在推理时多加几轮循环,标准Transformer直接崩溃。

这些结果说明当前大模型在预训练中已经记住了大量事实,瓶颈在于知识组合。

它们无法将已知事实串联起来回答新颖问题。循环似乎免费解锁了这种组合能力。

如果这些结论成立,Scaling的主流将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。

有了这些研究结果,Anthropic的Mythos是否真的用了这套架构,似乎已经不重要了。

对循环Transformer的猜想已经吸引了来自学术界的大量目光。

更多理论和实验验证正在路上。

GitHub:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接:
[1]https://x.com/KyeGomezB/status/2045660378844024994
[2]https://arxiv.org/abs/2604.07822
[3]https://arxiv.org/abs/2604.12946

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

🔹 谁会代表2026年的AI?

龙虾爆火,带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许不止于此。

如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标

科技前沿进展每日见

http://www.jsqmd.com/news/684231/

相关文章:

  • Sherpa Onnx 跨平台语音处理架构设计与技术实现
  • Figma赢了,然后发现自己赢了一场不太重要的战争
  • 告别数据丢失!深入解析M24C08 EEPROM的页写缓冲与自定时写入周期
  • 打卡信奥刷题(3149)用C++实现信奥题 P7677 [COCI 2013/2014 #5] LADICE
  • 【机械臂】Gluon-2L6-4L3 驱动部署与ROS集成实战
  • 爱奇艺收手吧,外面全是AI
  • 当 AI 开始干活,安全如何破局
  • P9920 学习笔记
  • 2026年茶器销售行业靠谱GEO优化服务商核心能力选型分析报告 - 商业小白条
  • 一文速览最新发布的《CMMI中国2025优秀实践案例集》
  • STC89C52单片机玩转NE555:手把手教你实现一个简易频率计(附完整工程)
  • Day05-MySQL
  • 告别依赖噩梦:用Buildroot一键集成GStreamer到你的ARM-Linux系统镜像
  • 动态规划经典案例分析之编辑距离
  • 2026年3月升降货梯源头厂家推荐,液压货梯/升降平台/升降货梯,升降货梯源头厂家哪家性价比突出 - 品牌推荐师
  • “金三银四”春招大战正酣!2026职场招聘被AI点燃,岗位暴涨12倍,月薪超6万
  • 还在用 Visio 画架构图?这个 AI 神器让你告别手动绘图,5秒出图还能改!
  • 打卡信奥刷题(3150)用C++实现信奥题 P7682 [COCI 2008/2009 #5] TRESNJA
  • 服务型AI设计:从自助陷阱到智能服务革命
  • 2026 热镀锌桥架实测排行:全维度性能解析与工程采购落地指南 - 外贸老黄
  • 竞技性机器学习:核心优势与实战进阶指南
  • LeetCode 2024. 考试的最大困扰度【不定长滑窗】1643
  • 避开STC15定时器的那些坑:从模式选择到中断响应,我的调试笔记
  • 实战解析:基于GD32与ADS1118的高精度数据采集系统搭建
  • 2026 热镀锌桥架综合实力 TOP 测评:全维度品质实测与工程采购实操指南 - 外贸老黄
  • between的用法
  • 单片机控制板基础设计原则
  • 5分钟掌握SMUDebugTool:AMD Ryzen处理器硬件调试实战指南
  • 别再手动复制DLL了!Qt Creator + CMake一键配置OpenCV库(附完整配置流程)
  • LFM2.5-1.2B-Thinking轻量部署:Ollama系统提示词配置,让1.2B小模型发挥大能量