当前位置：首页 > news >正文

DeepSeek2026新论文，有何风向标，梁文锋亲自署名

news 2026/3/27 0:13:27

大家好，2026，新的一年，祝大家身体健康，一路长虹。

今天，新年第一天，DeepSeek 又开始卷了，官方默默地在 arXiv 上传了一篇新论文，简单跟大家聊两句。

论文地址👉 https://arxiv.org/abs/2512.24880

image.png

这篇论文有两个值得注意的店：

一是 DeepSeek 的创始人梁文锋亲自署名了，这在他们近期的技术报告中并不多见，通常意味着这项研究在他们内部被视为极具分量的“基石级”工作；

二是这篇论文挑战的是深度学习领域过去十年未曾动摇的根基，何恺明在2016年提出的 ResNet 残差连接。

说实话，在 Gemini 辅助下读完这篇关于“mHC（流形约束超连接）”的论文，给我的感觉不是那种花哨的炫技，而是一种非常扎实的底层修补与重构。

我们都知道，现在的 GPT、LLaMA 这些大模型，骨子里都离不开 ResNet 的残差连接架构。那个经典的公式 $x_{l+1} = x_l + F(x_l)$ 保证了信号可以无损地从浅层传到深层，这是深层网络能训练起来的关键。也就是所谓的“恒等映射”。

但最近有个新趋势叫“超连接”（Hyper-Connections, HC），试图通过把残差流变宽（扩展成 n 倍宽度）来增加模型容量。

image.png

思路是好的，但问题很大。

DeepSeek 的研究人员发现，这种简单的扩展破坏了原有的“恒等映射”。他们在训练 27B 大小的模型时发现，HC 会导致信号在层间传播时被放大数千倍，或者干脆消失，这就直接导致了训练过程中的 Loss 突然激增，梯度也到处乱跳，非常不稳定。

这就像是你把水管加粗了想流更多的水，结果水压没控制好，管子差点爆了。

DeepSeek 这次提出的 mHC，核心就是为了解决这个问题。他们引入了一个很数学的概念：将连接矩阵约束在“双随机矩阵”构成的流形上。简单说，就是给这个加宽的通道加了一把锁，强制要求矩阵的每一行、每一列之和都等于1。

这个改动非常精妙。从理论上讲，它保证了信号经过映射后范数不超过1，不会被放大，从而避免了梯度爆炸；同时，无论网络堆叠多深，这种性质都能保持。为了实现这一点，他们用了 Sinkhorn-Knopp 算法来对矩阵进行归一化。

当然，光有理论不行，DeepSeek 向来以工程落地能力强著称。把残差流变宽，最直接的代价就是显存读写量暴增。论文里提到，如果扩展率设为4，读写量是惊人的。所以他们配套搞了一堆工程优化，比如用 TileLang 框架写了融合内核，减少内存访问次数，还专门设计了流水线并行的重叠策略。

结果非常直观：在 27B 的 MoE 模型上，mHC 不仅训练曲线稳得像一条直线，最终的 Loss 比基线还低了 0.021，在阅读理解和逻辑推理等下游任务上的表现也全面超越了之前的 HC 架构。

更重要的是，加了这么多复杂的约束和计算，额外的时间开销只有 6.7%，这在工业界完全是可以接受的。

回顾 DeepSeek 这大半年的动作，从登上 Nature 封面的纯强化学习推理研究，到发布 V3.2 对标 GPT-5，再到今天这篇重构底层架构的论文，能看出来这群人是在严肃地做“地基”工作。

他们不仅是在发产品，更是在试图修正和优化 AI 领域那些看似已经定型、实则还有缺陷的基础理论。

这种不只是追求应用层面的热闹，而是回头去啃硬骨头、去优化拓扑结构的研究态度，确实值得关注。

对于 2026 年的 AI 行业来说，这或许指明了一个新的演进方向：在堆算力和数据的同时，架构本身的数学严谨性和工程效率，依然有巨大的挖掘空间。

最后，再次祝大家新年快乐！

你是不是也想：摆脱朝九晚五的束缚，拥有一份 “睡后收入”？成为别人口中 “会搞钱的超级个体”，活成自己喜欢的样子？但内容创作太难、账号运营太复杂？别让 “不会” 拦住你的野心！

你要拥抱AI啊，AI是这个时代赋予我们每一个普通人翻身最好的武器，今天给大家推荐一个AI黑科技👉 https://01agent.net?utm_source=csdn小白也能快速出文案、自动做物料、轻松起账号用 AI 当 “外挂”，把你的才华放大 10 倍！从副业小白到超级个体，只差一个AI 武器的距离！

查看全文

http://www.jsqmd.com/news/178430/