马斯克点赞,Karpathy 转发!Kimi 一刀拆了 Transformer 十年地基
被 Kimi 刷屏的一天!
2015 年,计算机视觉大神何恺明写了一行代码。
h = h + f(h)
把上一层的输出原封不动地加到这一层的结果上,再传给下一层。
这就是「残差连接」。
GPT 用它,Claude 用它,Gemini 也用它。过去十年,全世界几乎所有大模型的每一层,都在重复这行代码。
没人动过。直到今天。
月之暗面(Moonshot AI)刚刚发表了一篇技术报告,叫「Attention Residuals」。
「注意力残差」。
沿用了十年的残差连接,直接换成注意力。
帖子发出不到 12 小时,230 万阅读,点赞 8800,转发 1600。
围观群众马斯克第一时间发来贺电,「Impressive work from Kimi.」
「干得漂亮,Kimi。」
前特斯拉 AI 总监 Andrej Karpathy 留下这样一条评论:
「We're not taking the Attention is All You Need part literally enough? :D」
「Attention is All You Need,我们还没吃透。」
Kimi 的技术帖迅速走红。
很多网友说,「又一个 DeepSeek 时刻,来了。」
「硅谷没人会转发这个帖子。因为承认一家中国实验室免费推动了整个 AI 领域,就会摧毁那套「我们需要 100 亿美元造 AGI」的融资故事。」
回到论文本身,Kimi 做了什么?
老粉应该还记得,今年 1 月初我们写过一篇「2026 第一枪:字节提出的超连接,被 DeepSeek 救活了」。
那篇讲的是残差连接的老毛病。它用固定的等权累加,第 1 层和第 50 层的输出权重一样。层数越深,浅层信息被后面几十层冲淡,贡献越来越小。
字节豆包 2024 年给它加了三条车道(超连接),DeepSeek 今年 1 月给四条车道装了限速器(mHC),信号放大倍数从 3000 降到 1.6。
两个团队都在残差连接的框架里做改良。
Kimi 这次不改良了。直接换。
残差连接在「深度」方向上做的事,跟 RNN 在「时间」方向上做的事,本质一样。
它们都把过去所有信息压缩进一个总和,一步步向后传。传到后面,早期信息被冲淡了。
2017 年,Transformer 用注意力干掉了 RNN。不压缩了,每个 token 可以直接回头看前面所有 token,模型自己决定该重点关注哪个词。
Kimi 把同样的逻辑旋转了 90 度,用在了深度上。
以前,第 50 层只能接收前面 49 层输出的等权累加,第 3 层的关键特征早就被稀释得看不见了。
现在,第 50 层自己回头看,发现第 3 层最有用,直接给它更大的权重,中间的噪声自动压低。
把注意力旋转 90 度。这套方案就是「注意力残差」(Attention Residuals)。
但全量注意力有个工程问题。上百层的模型,每一层都回头看所有层,显存扛不住。
Kimi 的解法叫「Block AttnRes」。把模型分成块,块内还是传统累加,块之间用注意力选择。
Kimi 对五种不同规模的模型做了 Scaling Law 实验。
结论:「用了注意力残差的,始终比传统残差表现更好。」
换算一下,Block AttnRes 相当于白送 1.25 倍算力。
最大的模型基于Kimi Linear架构,480 亿总参数、30 亿激活参数,投喂了 1.4 万亿 token。
提升最猛的是硬核推理。
博士级别的科学问答测试 GPQA-Diamond,直接提高 7.5%。数学推理 Minerva Math 涨 3.6%,代码生成 HumanEval 涨 3.1%。
越难的任务,提升越大。
和 mHC 比,AttnRes 性能几乎一样。
但显存开销差了六倍。AttnRes 更低。
设计思路也完全不同。
mHC 是加车道装限速器。一条残差通道不够,加到四条,再用数学约束保证信号不爆炸。路还是那条路,只是更宽了。
AttnRes 不修路了,直接换了个发动机。每一层用注意力回头看前面的层,框架本身换了。
作者名单里,月之暗面联合创始人杨植麟、吴育昕、周昕宇都在。另一位重要作者是苏剑林,NLP 领域知名研究者,RoPE 位置编码的提出者。
一作 Guangyu Chen 的经历更离谱。
他今年 17 岁,高三学生。2025 年 3 月才开始接触机器学习,每天下载论文喂给 Gemini,一篇一篇啃。16 岁那年暑假独自飞到帕洛阿尔托做了两个月研究,过海关时还被二次检查。
去年 10 月,Kimi 团队邀请他加入。今年 1 月,他发了一个帖,说正在和同事研究模型架构改进,突然接到妈妈电话祝他生日快乐,才意识到自己已经 17 岁了。
残差连接十年。
2015 年,何恺明发明了它。一条直通车,统治了整个深度学习。
2024 年,字节豆包加了三条车道。
2025 年底,DeepSeek 装了限速器。
2026 年 3 月,Kimi 说,别修路了。换发动机吧。
三刀下去,全是中国团队。
参考链接
Kimi「Attention Residuals」:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
DeepSeek「mHC」:https://arxiv.org/abs/2512.24880
字节「超连接」:https://arxiv.org/abs/2409.19606
何恺明「ResNet」:https://arxiv.org/abs/1512.03385
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。
