当前位置: 首页 > news >正文

马斯克点赞,Karpathy 转发!Kimi 一刀拆了 Transformer 十年地基

被 Kimi 刷屏的一天!

2015 年,计算机视觉大神何恺明写了一行代码。

h = h + f(h)

把上一层的输出原封不动地加到这一层的结果上,再传给下一层。

这就是「残差连接」。

GPT 用它,Claude 用它,Gemini 也用它。过去十年,全世界几乎所有大模型的每一层,都在重复这行代码。

没人动过。直到今天。


月之暗面(Moonshot AI)刚刚发表了一篇技术报告,叫「Attention Residuals」。

「注意力残差」。

沿用了十年的残差连接,直接换成注意力。

帖子发出不到 12 小时,230 万阅读,点赞 8800,转发 1600。

围观群众马斯克第一时间发来贺电,「Impressive work from Kimi.」

「干得漂亮,Kimi。」

前特斯拉 AI 总监 Andrej Karpathy 留下这样一条评论:

「We're not taking the Attention is All You Need part literally enough? :D」

「Attention is All You Need,我们还没吃透。」

Kimi 的技术帖迅速走红。

很多网友说,「又一个 DeepSeek 时刻,来了。」

「硅谷没人会转发这个帖子。因为承认一家中国实验室免费推动了整个 AI 领域,就会摧毁那套「我们需要 100 亿美元造 AGI」的融资故事。」


回到论文本身,Kimi 做了什么?

老粉应该还记得,今年 1 月初我们写过一篇「2026 第一枪:字节提出的超连接,被 DeepSeek 救活了」。

那篇讲的是残差连接的老毛病。它用固定的等权累加,第 1 层和第 50 层的输出权重一样。层数越深,浅层信息被后面几十层冲淡,贡献越来越小。

字节豆包 2024 年给它加了三条车道(超连接),DeepSeek 今年 1 月给四条车道装了限速器(mHC),信号放大倍数从 3000 降到 1.6。

两个团队都在残差连接的框架里做改良。

Kimi 这次不改良了。直接换。


残差连接在「深度」方向上做的事,跟 RNN 在「时间」方向上做的事,本质一样。

它们都把过去所有信息压缩进一个总和,一步步向后传。传到后面,早期信息被冲淡了。

2017 年,Transformer 用注意力干掉了 RNN。不压缩了,每个 token 可以直接回头看前面所有 token,模型自己决定该重点关注哪个词。

Kimi 把同样的逻辑旋转了 90 度,用在了深度上。

以前,第 50 层只能接收前面 49 层输出的等权累加,第 3 层的关键特征早就被稀释得看不见了。

现在,第 50 层自己回头看,发现第 3 层最有用,直接给它更大的权重,中间的噪声自动压低。

把注意力旋转 90 度。这套方案就是「注意力残差」(Attention Residuals)

但全量注意力有个工程问题。上百层的模型,每一层都回头看所有层,显存扛不住。

Kimi 的解法叫「Block AttnRes」。把模型分成块,块内还是传统累加,块之间用注意力选择。


Kimi 对五种不同规模的模型做了 Scaling Law 实验。

结论:「用了注意力残差的,始终比传统残差表现更好。」

换算一下,Block AttnRes 相当于白送 1.25 倍算力

最大的模型基于Kimi Linear架构,480 亿总参数、30 亿激活参数,投喂了 1.4 万亿 token。

提升最猛的是硬核推理。

博士级别的科学问答测试 GPQA-Diamond,直接提高 7.5%。数学推理 Minerva Math 涨 3.6%,代码生成 HumanEval 涨 3.1%。

越难的任务,提升越大。


和 mHC 比,AttnRes 性能几乎一样。

但显存开销差了六倍。AttnRes 更低。

设计思路也完全不同。

mHC 是加车道装限速器。一条残差通道不够,加到四条,再用数学约束保证信号不爆炸。路还是那条路,只是更宽了。

AttnRes 不修路了,直接换了个发动机。每一层用注意力回头看前面的层,框架本身换了。


作者名单里,月之暗面联合创始人杨植麟、吴育昕、周昕宇都在。另一位重要作者是苏剑林,NLP 领域知名研究者,RoPE 位置编码的提出者。

一作 Guangyu Chen 的经历更离谱。

他今年 17 岁,高三学生。2025 年 3 月才开始接触机器学习,每天下载论文喂给 Gemini,一篇一篇啃。16 岁那年暑假独自飞到帕洛阿尔托做了两个月研究,过海关时还被二次检查。

去年 10 月,Kimi 团队邀请他加入。今年 1 月,他发了一个帖,说正在和同事研究模型架构改进,突然接到妈妈电话祝他生日快乐,才意识到自己已经 17 岁了。


残差连接十年。

2015 年,何恺明发明了它。一条直通车,统治了整个深度学习。

2024 年,字节豆包加了三条车道。

2025 年底,DeepSeek 装了限速器。

2026 年 3 月,Kimi 说,别修路了。换发动机吧。

三刀下去,全是中国团队。


参考链接

  • Kimi「Attention Residuals」:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

  • DeepSeek「mHC」:https://arxiv.org/abs/2512.24880

  • 字节「超连接」:https://arxiv.org/abs/2409.19606

  • 何恺明「ResNet」:https://arxiv.org/abs/1512.03385


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


http://www.jsqmd.com/news/495218/

相关文章:

  • 2026年 硅胶带厂家推荐排行榜,蠕动泵/导电/医用级/食品级/双色/新能源/工业级/阻燃/弹簧/耐高温硅胶带,专业定制与高适配性深度解析 - 品牌企业推荐师(官方)
  • “数字员工”重构企业生产单元
  • Nginx与frp结合实现局域网和公网的双重https服务
  • 山东一卡通线上回收靠谱吗?回收心得分享与平台推荐 - 团团收购物卡回收
  • 2026年辽宁石棉垫片好用品牌排名,专业石棉垫片加工厂推荐 - 工业推荐榜
  • 【ROS2】ROS 2 中 Content Filtering (内容过滤)的简介与使用
  • 告别网络依赖:完全离线的 AI 开发环境搭建指南
  • 【语音去噪】基于matlab融合小波变换和维纳滤波语音信号去噪(含SNR)【含Matlab源码 15192期】
  • 一部中短波发射机的一生——从出厂到退役的全生命周期成本
  • 性能测试时,通过查询数据库获取大量数据会影响整体的性能吗?
  • 搞定2026年生鲜促销图,我的经验是别直接套模板
  • AI 编程4:LangGraph 实战:动态并行 Worker 编排器模式,让 AI 多任务并行生成报告-test7
  • 〘 9-1 〙软考高项 | 第16章:项目采购管理(上)
  • 基于分解的多目标优化算法(MOEA/D) —— Matlab实现 测试函数包括:ZDT、DTL...
  • 电动压铆螺柱:高效安装,稳固可靠新选择
  • 大模型联网难题破解!数眼智能(DataEyes)全解析,5分钟解锁实时数据能力
  • 一键生成论文的软件推荐!2026年精选6款AI论文生成神器指南,为你打造高质量论文 - 掌桥科研-AI论文写作
  • 【嵌入式】外部中断的学习小坑记录
  • Git误删急救:30秒拯救你的代码
  • 深度解析贪心算法
  • 【程序员转型】开发者转型成为 AI 工程师指南,大模型入门到精通,收藏这篇就足够了!
  • 分析鲨鱼速装性价比好不好,和同行比价格贵不贵 - 工业设备
  • 8.4通过延迟补偿来提高实时性
  • 选 PyQt6 还是 PySide6?这可能是 Python GUI 开发中最“纠结”的问题
  • 3分钟搞定!OpenClaw 龙虾 + Kimi 联网搜索,小白也能上手
  • PHP搭建开发环境(Windows系统)
  • 2026年无锡碳纤维废气焚烧炉选购指南,源头厂家宜业环保分析 - mypinpai
  • 工厂生产 PLC ip 的都是一样的怎么才能避免冲突进行组网呢?
  • 全栈vue/react+node.js,云服务器windows部署全流程
  • 2026年实力强的聚氨酯瓦壳源头厂家排名,哪家更靠谱 - 工业推荐榜