当前位置：首页 > news >正文

马斯克点赞，Karpathy 转发！Kimi 一刀拆了 Transformer 十年地基

news 2026/3/27 1:12:30

被 Kimi 刷屏的一天！

2015 年，计算机视觉大神何恺明写了一行代码。

h = h + f(h)

把上一层的输出原封不动地加到这一层的结果上，再传给下一层。

这就是「残差连接」。

GPT 用它，Claude 用它，Gemini 也用它。过去十年，全世界几乎所有大模型的每一层，都在重复这行代码。

没人动过。直到今天。

月之暗面（Moonshot AI）刚刚发表了一篇技术报告，叫「Attention Residuals」。

「注意力残差」。

沿用了十年的残差连接，直接换成注意力。

帖子发出不到 12 小时，230 万阅读，点赞 8800，转发 1600。

围观群众马斯克第一时间发来贺电，「Impressive work from Kimi.」

「干得漂亮，Kimi。」

前特斯拉 AI 总监 Andrej Karpathy 留下这样一条评论：

「We're not taking the Attention is All You Need part literally enough? :D」

「Attention is All You Need，我们还没吃透。」

Kimi 的技术帖迅速走红。

很多网友说，「又一个 DeepSeek 时刻，来了。」

「硅谷没人会转发这个帖子。因为承认一家中国实验室免费推动了整个 AI 领域，就会摧毁那套「我们需要 100 亿美元造 AGI」的融资故事。」

回到论文本身，Kimi 做了什么？

老粉应该还记得，今年 1 月初我们写过一篇「2026 第一枪：字节提出的超连接，被 DeepSeek 救活了」。

那篇讲的是残差连接的老毛病。它用固定的等权累加，第 1 层和第 50 层的输出权重一样。层数越深，浅层信息被后面几十层冲淡，贡献越来越小。

字节豆包 2024 年给它加了三条车道（超连接），DeepSeek 今年 1 月给四条车道装了限速器（mHC），信号放大倍数从 3000 降到 1.6。

两个团队都在残差连接的框架里做改良。

Kimi 这次不改良了。直接换。

残差连接在「深度」方向上做的事，跟 RNN 在「时间」方向上做的事，本质一样。

它们都把过去所有信息压缩进一个总和，一步步向后传。传到后面，早期信息被冲淡了。

2017 年，Transformer 用注意力干掉了 RNN。不压缩了，每个 token 可以直接回头看前面所有 token，模型自己决定该重点关注哪个词。

Kimi 把同样的逻辑旋转了 90 度，用在了深度上。

以前，第 50 层只能接收前面 49 层输出的等权累加，第 3 层的关键特征早就被稀释得看不见了。

现在，第 50 层自己回头看，发现第 3 层最有用，直接给它更大的权重，中间的噪声自动压低。

把注意力旋转 90 度。这套方案就是「注意力残差」（Attention Residuals）。

但全量注意力有个工程问题。上百层的模型，每一层都回头看所有层，显存扛不住。

Kimi 的解法叫「Block AttnRes」。把模型分成块，块内还是传统累加，块之间用注意力选择。

Kimi 对五种不同规模的模型做了 Scaling Law 实验。

结论：「用了注意力残差的，始终比传统残差表现更好。」

换算一下，Block AttnRes 相当于白送 1.25 倍算力。

最大的模型基于Kimi Linear架构，480 亿总参数、30 亿激活参数，投喂了 1.4 万亿 token。

提升最猛的是硬核推理。

博士级别的科学问答测试 GPQA-Diamond，直接提高 7.5%。数学推理 Minerva Math 涨 3.6%，代码生成 HumanEval 涨 3.1%。

越难的任务，提升越大。

和 mHC 比，AttnRes 性能几乎一样。

但显存开销差了六倍。AttnRes 更低。

设计思路也完全不同。

mHC 是加车道装限速器。一条残差通道不够，加到四条，再用数学约束保证信号不爆炸。路还是那条路，只是更宽了。

AttnRes 不修路了，直接换了个发动机。每一层用注意力回头看前面的层，框架本身换了。

作者名单里，月之暗面联合创始人杨植麟、吴育昕、周昕宇都在。另一位重要作者是苏剑林，NLP 领域知名研究者，RoPE 位置编码的提出者。

一作 Guangyu Chen 的经历更离谱。

他今年 17 岁，高三学生。2025 年 3 月才开始接触机器学习，每天下载论文喂给 Gemini，一篇一篇啃。16 岁那年暑假独自飞到帕洛阿尔托做了两个月研究，过海关时还被二次检查。

去年 10 月，Kimi 团队邀请他加入。今年 1 月，他发了一个帖，说正在和同事研究模型架构改进，突然接到妈妈电话祝他生日快乐，才意识到自己已经 17 岁了。

残差连接十年。

2015 年，何恺明发明了它。一条直通车，统治了整个深度学习。

2024 年，字节豆包加了三条车道。

2025 年底，DeepSeek 装了限速器。

2026 年 3 月，Kimi 说，别修路了。换发动机吧。

三刀下去，全是中国团队。

参考链接

Kimi「Attention Residuals」：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
DeepSeek「mHC」：https://arxiv.org/abs/2512.24880
字节「超连接」：https://arxiv.org/abs/2409.19606
何恺明「ResNet」：https://arxiv.org/abs/1512.03385