当前位置：首页 > news >正文

简述从Gemma_4到DeepSeek_V4的架构演进

news 2026/5/22 18:27:57

本文综述了2025年春季以来开放权重LLM在架构层面的重要演进，核心目标是降低长上下文推理成本。主要技术包括Gemma 4的跨层KV共享、ZAYA1的压缩卷积注意力、Laguna XS.2的分层注意力预算以及DeepSeek V4的组合式优化（含mHC残差连接升级）。这些技术通过差异化注意力计算、缓存压缩和底层架构重构，平衡长距离依赖能力与计算开销，推动推理成本从奢侈品变为日用品。行业正形成共识：降本增效需靠架构智能重构，而非单纯堆硬件。

Sebastian Raschka在一篇近期的技术综述中，系统盘点了2025年春季以来多个开放权重LLM（大型语言模型）在架构层面的重要演进。文章篇幅颇长，但核心线索极其清晰——几乎所有值得关注的新模型，都在围绕同一个问题发力：**如何让长上下文推理不再那么昂贵。**本文基于Raschka的原文框架进行整理和转述，为你呈现这场静悄悄却影响深远的架构变革。

你可能会问：KV缓存、注意力机制、残差流——这些听上去像教科书里的术语，跟我手头的工作有什么关系？

关系比你想象的要近得多。如果你的团队正在构建一个能阅读上百页技术文档的编程Agent，或者一个需要记住整段对话历史的客服系统，那么**KV缓存的大小就不是一个遥远的参数，而是直接决定你的GPU账单是三位数还是四位数。**Raschka的这篇文章，本质上就是一份来自2025年春季的“降本增效技术清单”——每一招都指向同一个目标：让长上下文推理从奢侈品变成日用品。

更妙的是，这些技术不是互相排斥的孤立方案。你会看到，谷歌的工程师在KV缓存上动脑筋，Zyphra的团队在注意力计算里“夹带”卷积操作，而DeepSeek的架构师则直接对Transformer的骨架——残差连接——做了一次外科手术。把这些故事串在一起读，你会发现一个清晰的行业共识正在成形：推理成本的降低，不能只靠堆硬件，更要靠架构的聪明重构。

读完这篇文章，你将获得一组可以立刻和同事讨论的架构选项。你甚至会忍不住把其中几个技术要点截图发到团队群里——因为它解释了你一直感受到的痛点。

为什么长上下文突然成了所有人的“痛”？

先看一个场景。你的Agent需要处理一份200页的技术规范书，同时还要记住之前30轮对话的上下文。在传统的Transformer架构里，每多一个token，注意力计算的开销就呈二次方增长。KV缓存——那个用来存储已计算好的键值对、避免重复计算的“记忆体”——会随着上下文长度线性膨胀，直到把GPU显存塞得满满当当。

Sebastian Raschka在原文中指出，随着推理模型（reasoning models）和Agent工作流的普及，系统保留的token数量在持续飙升，而且保留时间越来越长。KV缓存大小、内存带宽和注意力计算成本，已经迅速取代模型参数量，成为长上下文场景下最主要的瓶颈。

这不是一个学术问题。这是一个工程账单问题。如果你的Agent每次推理都要为重复计算买单，那么产品化就是天方夜谭。

也正因如此，2025年春季以来发布的新模型，普遍在架构层面做了“动刀式”的优化。Raschka把他观察到的趋势概括为一个清晰的判断：**LLM开发者正在引入越来越多的架构技巧来降低这些长上下文成本。**他提醒读者，本文将专注于架构设计本身——数据集混合、训练计划、后训练细节、强化学习配方和基准测试表格这些都暂时搁置——只聚焦在Transformer模块内部、残差流、KV缓存和注意力计算层面的变化。

换句话说，这是一次对LLM“发动机”的集中检修，而不是对“车身外观”的品评。对于需要理解模型底层工作机制的工程师和设计者来说，这恰恰是最有营养的部分。

四个模型，四种省钱之道

Raschka在原文中重点分析了四个模型的架构创新。我们将逐一展开，但在进入每个案例之前，先记住一条贯穿全文的暗线：**这些技术都试图在“保留长距离依赖能力”和“压缩计算与存储开销”之间找到更优的平衡点。**理解了这条暗线，你就理解了2025年LLM架构演进的核心逻辑。

Gemma 4：让不同层“共享记忆”

今年四月初，Google发布了开放权重的Gemma 4系列模型，覆盖从移动端到云端的完整产品线：面向IoT和嵌入式设备的E2B/E4B、为高效本地推理优化的26B MoE模型、以及追求极致质量的31B稠密模型。

在E2B和E4B这两个“小型化”变体上，Gemma 4引入了一项看似微小但效果显著的设计：**跨层KV共享。**简单来说，后层不再各自维护独立的KV缓存，而是复用前层已经计算好的键值状态。

这带来两个直接的好处：显存占用下降，长上下文推理效率提升。根据开源config.json的验证，E2B共35层，其中20层共享KV（即num_kv_shared_layers=20）；E4B共42层，其中18层共享KV。注意——这不是近似计算，不是有损压缩，而是直接复用精确计算过的KV值。也就是说，在显存节省的同时，模型精度不受影响。

Raschka特别指出，KV共享并非Gemma 4首创（此前Brandon等人的NeurIPS 2024论文已提出跨层注意力概念），但Gemma 4是第一个在“明星模型”中落地这一技术的案例，这让它从学术概念变成了工程实践的可选项。

与KV共享配套的另一项设计是**逐层嵌入。**传统架构中，每一层的输入都来自同一个嵌入层；而在Gemma 4的小型变体中，不同层可以接收不同粒度的输入表示。这一设计使得模型可以根据层在“局部→全局”注意力结构中的位置，动态调整输入信息的分辨率，进一步压缩了不必要的计算开销。

**实践启示：**如果你的Agent需要处理超长上下文但运行在消费级硬件上，跨层KV共享是一个值得重点关注的方案。它不是“黑科技”，但它用最朴素的方式解决了最现实的问题——复用已有的计算结果，避免重复劳动。

ZAYA1：在注意力里“夹带”卷积

接下来是Zyphra团队发布的ZAYA1-8B模型。它的特殊之处有两个：一是全球首个在纯AMD平台上完成训练的大型MoE模型，二是在注意力机制中引入了一项名为**压缩卷积注意力（CCA）**的技术。

CCA的核心思想出人意料地直接：在注意力计算的头内部，用卷积操作替代标准注意力中部分矩阵乘法，且整个计算完全在潜在空间中进行。

这带来的效果是一举多得的：参数量减少，预填充计算量降低，KV缓存规模缩小，同时在loss/flop指标上反而更优。

具体数据方面，ZAYA1的CCA注意力使显存占用下降约32%，长上下文吞吐量提升约18%。它还与4:1的分组查询注意力（GQA）配合使用——8个查询头共享2个键值头，进一步压缩了缓存规模。

Raschka对此的评价是，这个设计“相当精妙”，值得深入讨论。它展示了一个重要方向：注意力不一定非得是“全对全”的矩阵乘法。将卷积操作引入注意力计算，既保留了捕捉局部模式的能力，又大幅压缩了全局计算的开销。

**实践启示：**对于需要处理长序列但对推理速度有严格要求的Agent场景，CCA提供了一个有趣的替代方案。它提醒我们：注意力机制的设计空间远没有被穷尽，在经典组件中“夹带”一些信号处理领域的成熟操作，有时比从头发明新机制更有效。

Laguna XS.2：给注意力“分层”做预算

Poolside发布的Laguna XS.2是一个面向Agent编程和长周期软件工程任务的混合滑动窗口注意力MoE模型。它在40个Transformer层中做了一个大胆的预算分配：30层使用滑动窗口注意力（每层仅关注局部512个token），10层使用全局注意力。

这个3:1的分层比例不是随意拍脑袋的。Raschka解释说，它背后基于一个关键观察：不是所有层都需要看到所有token。浅层和中层通常处理局部语法和短距离语义，只有少数深层需要建立跨段落、跨文档的长距离依赖。

通过这种“分层注意力预算”设计，Laguna XS.2大幅降低了KV缓存需求，同时在长周期代码生成任务上保持了竞争力。它还使用了sigmoid门控配合每层的旋转位置编码尺度，来动态控制哪些层执行滑动窗口、哪些层执行全局注意力。

**实践启示：**这个案例对Agent设计者尤其有参考价值。如果你在构建一个需要持续维护长对话历史的编程Agent，不必为每一层都“开足马力”。把计算资源集中在真正需要“远见”的层上，剩下的层专注于眼前的事——就像一个好的工程团队，既有负责战术执行的一线工程师，也有负责战略视野的架构师。

DeepSeek V4：组合拳与“定海神针”

压轴的案例是2025年底发布的DeepSeek V4，Raschka将其视为“组合式优化”的典型代表。V4在注意力层面同时引入了CSA（压缩稀疏注意力）与HCA（重度压缩注意力）的混合架构——CSA对KV缓存进行序列维度压缩后再做稀疏注意力，HCA采用更激进的压缩但保留稠密注意力，二者协同工作，大幅降低了长输入场景下的临时内存需求。

但Raschka把更多的笔墨留给了一个看似不起眼的底层组件——残差连接的升级，也就是DeepSeek同期发布的mHC（流形约束的超连接）技术。

传统的Transformer残差连接是一个极其简单的操作：把当前层的输出直接加到输入上。这个“加法”看似平平无奇，但它解决了深层网络训练中梯度消失和信号衰减的核心问题，可以说是深度学习的“定海神针”。然而，当模型扩展到数百层、数千层时，这种简单加法的局限性开始显现——信号在多车道残差流中传播时可能出现不稳定甚至梯度爆炸。

mHC的解决方案可以被通俗地理解为：给每条残差流中的“车道”之间设置了一个受约束的混合矩阵，限制信号在各车道之间交互的方式和幅度。

这就像在高速公路上设置了限速和变道规则——车还是可以变道，但不能随意横穿。论文实验表明，mHC仅增加了约6.7%的训练开销，却显著提升了大规模训练的稳定性和可扩展性。

DeepSeek V4将mHC与CSA/HCA混合注意力、细粒度MoE路由等技术组合在一起，构建了一个在百万token上下文下仍能高效运作的架构。V4-Pro总参数达1.6万亿，激活参数仅49B，这意味着它在保持巨大知识容量的同时，推理成本被控制在一个可管理的区间。

Raschka的评价颇高——他认为这些“在我的架构图中看起来很小的改动”，实际上是一些“相当复杂的设计变化”，它们共同构成了2025年LLM架构演进中技术含量最高的篇章。

实践启示：DeepSeek V4的案例告诉我们，架构创新不一定需要推倒重来。**对Transformer骨架中那些“理所当然”的组件（如残差连接）进行精细的重新设计，叠加注意力层面的分层压缩策略，可以产生组合式的放大效应。**对于有足够工程资源进行定制化模型训练的团队来说，mHC提供了一个可落地的优化方向。

从四幅图景中看到的共同逻辑

把四个模型的创新摆在一起看，Raschka梳理出了几条跨模型的设计范式。这些范式虽然尚未成为行业标准，但已经展现出强烈的趋势信号。

注意力计算不再是“一层不变”的

Gemma 4的KV共享、ZAYA1的CCA、Laguna XS.2的分层注意力预算、DeepSeek V4的CSA/HCA混合架构——这四种技术分属不同流派，但有一个共同的底色：注意力机制不再被当作一个统一的、在所有层上完全相同操作的“黑盒”。

过去的做法是：每一层都独立地、完整地计算所有token之间的注意力分数。而今的做法是：不同层可以执行不同类型的注意力，有些层甚至可以“借用”其他层的计算结果。这种差异化设计正是降低长上下文成本的关键——因为不是每个token都需要被每一层“看见”。

从“压缩缓存”到“重构连接”

Raschka观察到的另一条脉络是从KV缓存压缩向更底层架构组件重构的延伸。MLA（多头潜在注意力）曾是DeepSeek V2/V3在KV压缩领域的代表性技术，通过低秩投影将KV缓存压缩至传统MHA的1/8至1/16。而在2025年的新模型中，优化正在向两个方向同时推进：一是注意力计算本身的压缩（CCA、CSA、HCA），二是残差连接等基础组件在深层网络中的稳定性改进（mHC）。

这意味着行业共识正在形成：长上下文推理的优化不能只做“表面文章”（压缩缓存），还需要做“底层手术”（重构连接和信号传播机制）。