当前位置：首页 > news >正文

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

news 2026/7/10 6:05:06

Ilya之前有个预言，把按时间先后顺序处理数据的LSTM网络“旋转90度”，也就是把时间轴换成模型深度轴，就变成了现在的残差网络。

17岁高中生，以一作身份，在Kimi团队把Ilya提出的设想，变成了现实。

Ilya之前有个预言，把按时间先后顺序处理数据的LSTM网络“旋转90度”，也就是把时间轴换成模型深度轴，就变成了现在的残差网络。

Kimi团队认为，既然时间上的LSTM能对应深度上的残差，那后来淘汰了LSTM的“注意力机制”自然也可以照做。

他们新搞出的Attention Residuals技术，就相当于把注意力机制也“旋转了90度”。

用了这套新方法后，模型在计算当前层时可以聪明地“回头看”，根据需要自由决定去提取前面哪一层的信息。

这篇论文让马斯克也来围观，表示令人印象深刻。

除了马斯克，这篇论文也引发了大神Karpathy的思考，直言我们对Attention is All You Need这篇Transformer开山之作的理解还是不够。

这种新机制放到Kimi自家的Kimi Linear 48B大模型（3B激活参数）上验证，训练效率提升25%，推理延迟增加不到2%。

残差连接的“记忆负担”

先回顾一下残差连接的工作原理。

传统做法是：第N层的输出 = 第N层的计算结果 + 第N-1层的输出。这样一路累加下去，每一层都能“记住”前面所有层的信息。

问题来了，在大模型PreNorm主流范式下，残差连接中所有层的贡献都是等权累加。

就像一个“记忆力太好的人”，把所有经历都以相同权重存进大脑。贡献被逐步稀释，早期信息难以检索，且大量层可被剪枝而损失微小，称之为“PreNorm dilution problem”。

更麻烦的是，隐藏状态的范数会随着深度不断增长。研究人员发现，在深层网络中，这种unbounded growth会导致训练不稳定。

月之暗面团队换了个思路：既然问题出在“无差别累加”，那就让网络自己决定该回忆什么。

用注意力“选择性回忆”

团队观察到一个有趣的对偶性：网络的深度维度和序列的时间维度，本质上是同构的。

在Transformer处理序列时，用注意力机制让当前位置“选择性关注”之前的位置。那么在深度维度上，为什么不能让当前层“选择性关注”之前的层？

Attention Residuals就这么来的：

当前层的可学习伪查询向量作为query（learnable pseudo-query）
所有前层的输出作为key和value
用注意力机制加权聚合

这样一来，网络可以学会哪些层的信息对当前计算最重要，就多关注一点；不相关的层，权重自然降低。

但这带来一个新问题：计算量爆炸。

如果一个100层的网络，每一层都要对前面99层做full attention residual，复杂度是O(L²)，根本跑不动。

Block AttnRes：分块压缩

论文中的解决方案是Block AttnRes。

核心思想是把连续的若干层打包成一个block，对block内部的输出做压缩，只保留一个“摘要向量”。

具体操作如下：

把L层网络分成B个block，每个block包含若干层
每个block结束时，把block内的信息压缩成单个向量
后续层做attention时，只需要关注块间表征+块内实时层输出，而非全部L个层

这样一来，attention的复杂度从O(L²)降到了O(L·B)，在实践中B可以设得很小（论文用的是8-16）。

此外，团队还做了数个工程优化：缓存式流水线通信、序列分片预填充、KV 缓存粒度优化等等。

Kimi Linear验证：1.25倍效率提升

理论说得通，但真正让人信服的是大规模验证。

团队在自家的Kimi Linear架构上做了测试。这是一个采用线性注意力的大模型，总参数48B，激活参数3B（MoE架构）。

同等计算预算下，Attention Residuals能获得更好的下游性能；反过来说，达到相同性能需要的训练计算量减少了约20%，相当于获得了1.25倍的效率优势。

在具体任务上，数学推理（MATH、GSM8K）、代码生成（HumanEval、MBPP）均持平或略优，多语言理解的一致性也有所改善。

更重要的是，Attention Residuals是一个drop-in replacement，不需要修改网络其他部分，直接替换残差连接即可。

论文里还讲到一个有意思的视角。

团队把这项工作称为“时间-深度对偶性”（time-depth duality）的应用。

在他们看来，深度神经网络的“层”和循环神经网络的“时间步”，本质上是都是对信息的迭代处理。

Transformer之所以成功，是因为用attention替代了RNN中固定的recurrence。

那么在深度维度上，是不是也该用attention替代固定的residual？

17岁高中生入列共同一作

更有意思的是，这篇让马斯克、Karpathy等人都为之一震的论文，共同一作之一是一名年仅17岁的高中生——陈广宇（Nathan）。

另外两名共同一作，分别是Kimi的关键人物之一、RoPE（旋转位置编码）的提出者苏神（苏剑林），以及Kimi Linear的第一作者张宇。

诚然Attention Residuals是团队协作取得的成果，但一名高中生出现在这样的团队之中，还与两位大神共列一作，已经足够震撼。

a16z创始人Marc Andreessen、Thinking Machines的联创等人都关注了他的X账号。

一年前才刚刚开始了解大模型的陈广宇，是从北京的一场黑客松开始，一路走向硅谷的。

后来回国时，他选择加入了Kimi。

经手过月之暗面投资的奇绩创坛（原YC中国）创始成员董科含，也曾在其个人公众号上刊载过陈广宇的一份自传。

去年二月，北京的一场中学生黑客松上，陈广宇展示了一个关于“人类第三只机械辅助手”的创新构想——ThirdArm。

也正是这个项目，让他结识了黑客松评委董科含，后者也成为了他的创业导师。

当时，董科含追问他，未来是否会深耕这项技术，这促使他开始重新审视自己的职业方向。

随后他入选了董科含发起的只有极少数人入选的青年计划，开始接触IOI（国际信息学奥林匹克）金牌得主及资深科研人员。

此前他曾尝试经营Shopify跨境电商店铺、运营短视频账号，但经过董科含的建议，他决定转向理解时代的底层技术。

当时还不知道Transformer是什么的他，在DeepSeek研究员袁境阳的指导下，利用Gemini作为辅助工具，通过研读经典论文、追踪GitHub开源项目等方式逐步建立认知。

有一次他在推特上分享了对一篇博客的反思后，获得了作者的回复，这篇帖子也因此引起了一家硅谷AI初创公司CEO的关注。

该公司于2024年底成立，2025年初完成了800万美元种子轮融资，资方背景涉及OpenAI与Anthropic。

在通过一项限时通宵完成的实验测试后，他拿到了对方的录用通知。

暑假期间，他前往旧金山开启了为期七周的实习。其中前两周，他负责定义并推进一个涉及144张H100显卡的探索性项目。

在CEO直接指导下，他的工作延伸至运营层面，参与了招聘系统搭建、技术内容输出及融资策略讨论，并获得与早期投资者Vinod Khosla交流的机会。

在硅谷期间，他维持着高强度工作节奏，通过咖啡社交与英伟达工程师及初创创始人建立联系。这次经历让他将科研视为一种支撑创造的底层能力。

实习结束后，陈广宇回到国内，并于去年11月加入月之暗面。

把他吸引进去的，正是Kimi一直做的Flash Linear Attention这一类高效attention工作。

实际上，正是GitHub上的FLA项目，吸引了他对机器学习的兴趣并被邀请加入Kimi团队。

也正是顺着这条线，他开始一路往更底层钻，从读论文、看实现，到研究 Triton kernel、理解attention为什么能被这样重写、这样加速。

到了月之暗面，这条路也算是绕了一圈又落回原点——

他最初是被底层技术吸引，最后做的也正是最底层、最核心的那部分事。

相比于讲一个“少年天才一路开挂”的故事，陈广宇的经历更像是另一种成长路径——

先被时代最前沿的技术击中，再一步步把兴趣磨成能力，把能力带到真正的大模型研发现场里。

论文地址：
https://github.com/MoonshotAI/Attention-Residuals/

查看全文

http://www.jsqmd.com/news/496190/

图神经网络实战指南：从GCN到GAT与GraphSAGE的进阶之路

手把手教你用Trae AI生成Vue博客模板并部署到Cloudflare（最新2024版）

Qwen-Image-Edit-F2P创意作品展：从写实到奇幻的边界探索

网络工程师必看：MSTP与VRRP的5个典型配置误区及解决方案

游戏开发者的福音：用HY-Motion 1.0批量生成NPC动作，效率提升10倍

高等数学极限运算：5个必掌握的运算法则及常见错误解析

8.linux驱动工程师路线图

HALCON图像处理实战：hom_vector_to_proj_hom_mat2d算子的5种典型应用场景

基于STM32的AGS10 MEMS TVOC传感器I2C驱动移植与室内空气质量监测实战

SOC芯片设计中的DFT实战：OCC时钟管理与ATPG测试架构全解析

影刀 RPA 实战进阶：从官方教程到企业级应用开发心法

LC滤波器设计避坑指南：为什么你的FPGA实现和仿真结果总对不上？

零代码黑苹果配置：OpCore Simplify自动化工具如何让72小时调试变成15分钟流程

StructBERT文本相似度WebUI快速上手：无需代码，打开网页就能用的AI工具

DAMOYOLO-S企业应用：制造业缺陷检测中替代传统OpenCV方案实测

安卓系统日志全解析：从内核到应用层的dmesg与logcat使用指南

如何高效回收沃尔玛购物卡？方法超简单 - 团团收购物卡回收

Verilog文件管理实战：如何用-y和libext简化大型设计的filelist维护

ccmusic-database/music_genre一文详解：Gradio状态管理与异步推理优化

2026年国网在线监测系统TOP品牌盘点：技术实力与市场口碑深度解析 - 品牌推荐大师1

Flowise消息通知：邮件/Webhook事件推送配置

讲讲BWT倍世净水器，技术先进吗，北京地区哪家口碑好 - 工业推荐榜

5分钟搞定：用C++手搓一个Brainfuck解释器（附完整代码）

告别自动提交：在DBeaver中配置事务手动提交模式

TechWiz LCD 3D应用：FFS仿真

Dice Loss与Focal Loss在医学图像分割中的实战对比

值得推荐的超声波流量计供应商排名，南京欧卡排第几？ - 工业品牌热点

PID智能小车调参实战（一）

VirtualLab：泰伯效应的建模

2026年四川地区环保装配式墙板性价比排名，价格多少钱 - myqiye

残差连接的“记忆负担”

用注意力“选择性回忆”

Block AttnRes：分块压缩

Kimi Linear验证：1.25倍效率提升

17岁高中生入列共同一作

相关文章：