当前位置: 首页 > news >正文

简述从Gemma_4到DeepSeek_V4的架构演进

本文综述了2025年春季以来开放权重LLM在架构层面的重要演进,核心目标是降低长上下文推理成本。主要技术包括Gemma 4的跨层KV共享、ZAYA1的压缩卷积注意力、Laguna XS.2的分层注意力预算以及DeepSeek V4的组合式优化(含mHC残差连接升级)。这些技术通过差异化注意力计算、缓存压缩和底层架构重构,平衡长距离依赖能力与计算开销,推动推理成本从奢侈品变为日用品。行业正形成共识:降本增效需靠架构智能重构,而非单纯堆硬件。


Sebastian Raschka在一篇近期的技术综述中,系统盘点了2025年春季以来多个开放权重LLM(大型语言模型)在架构层面的重要演进。文章篇幅颇长,但核心线索极其清晰——几乎所有值得关注的新模型,都在围绕同一个问题发力:**如何让长上下文推理不再那么昂贵。**本文基于Raschka的原文框架进行整理和转述,为你呈现这场静悄悄却影响深远的架构变革。

你可能会问:KV缓存、注意力机制、残差流——这些听上去像教科书里的术语,跟我手头的工作有什么关系?

关系比你想象的要近得多。如果你的团队正在构建一个能阅读上百页技术文档的编程Agent,或者一个需要记住整段对话历史的客服系统,那么**KV缓存的大小就不是一个遥远的参数,而是直接决定你的GPU账单是三位数还是四位数。**Raschka的这篇文章,本质上就是一份来自2025年春季的“降本增效技术清单”——每一招都指向同一个目标:让长上下文推理从奢侈品变成日用品。

更妙的是,这些技术不是互相排斥的孤立方案。你会看到,谷歌的工程师在KV缓存上动脑筋,Zyphra的团队在注意力计算里“夹带”卷积操作,而DeepSeek的架构师则直接对Transformer的骨架——残差连接——做了一次外科手术。把这些故事串在一起读,你会发现一个清晰的行业共识正在成形:推理成本的降低,不能只靠堆硬件,更要靠架构的聪明重构。

读完这篇文章,你将获得一组可以立刻和同事讨论的架构选项。你甚至会忍不住把其中几个技术要点截图发到团队群里——因为它解释了你一直感受到的痛点。

为什么长上下文突然成了所有人的“痛”?

先看一个场景。你的Agent需要处理一份200页的技术规范书,同时还要记住之前30轮对话的上下文。在传统的Transformer架构里,每多一个token,注意力计算的开销就呈二次方增长。KV缓存——那个用来存储已计算好的键值对、避免重复计算的“记忆体”——会随着上下文长度线性膨胀,直到把GPU显存塞得满满当当。

Sebastian Raschka在原文中指出,随着推理模型(reasoning models)和Agent工作流的普及,系统保留的token数量在持续飙升,而且保留时间越来越长。KV缓存大小、内存带宽和注意力计算成本,已经迅速取代模型参数量,成为长上下文场景下最主要的瓶颈。

这不是一个学术问题。这是一个工程账单问题。如果你的Agent每次推理都要为重复计算买单,那么产品化就是天方夜谭。

也正因如此,2025年春季以来发布的新模型,普遍在架构层面做了“动刀式”的优化。Raschka把他观察到的趋势概括为一个清晰的判断:**LLM开发者正在引入越来越多的架构技巧来降低这些长上下文成本。**他提醒读者,本文将专注于架构设计本身——数据集混合、训练计划、后训练细节、强化学习配方和基准测试表格这些都暂时搁置——只聚焦在Transformer模块内部、残差流、KV缓存和注意力计算层面的变化。

换句话说,这是一次对LLM“发动机”的集中检修,而不是对“车身外观”的品评。对于需要理解模型底层工作机制的工程师和设计者来说,这恰恰是最有营养的部分。

四个模型,四种省钱之道

Raschka在原文中重点分析了四个模型的架构创新。我们将逐一展开,但在进入每个案例之前,先记住一条贯穿全文的暗线:**这些技术都试图在“保留长距离依赖能力”和“压缩计算与存储开销”之间找到更优的平衡点。**理解了这条暗线,你就理解了2025年LLM架构演进的核心逻辑。

Gemma 4:让不同层“共享记忆”

今年四月初,Google发布了开放权重的Gemma 4系列模型,覆盖从移动端到云端的完整产品线:面向IoT和嵌入式设备的E2B/E4B、为高效本地推理优化的26B MoE模型、以及追求极致质量的31B稠密模型。

在E2B和E4B这两个“小型化”变体上,Gemma 4引入了一项看似微小但效果显著的设计:**跨层KV共享。**简单来说,后层不再各自维护独立的KV缓存,而是复用前层已经计算好的键值状态。

这带来两个直接的好处:显存占用下降,长上下文推理效率提升。根据开源config.json的验证,E2B共35层,其中20层共享KV(即num_kv_shared_layers=20);E4B共42层,其中18层共享KV。注意——这不是近似计算,不是有损压缩,而是直接复用精确计算过的KV值。也就是说,在显存节省的同时,模型精度不受影响。

Raschka特别指出,KV共享并非Gemma 4首创(此前Brandon等人的NeurIPS 2024论文已提出跨层注意力概念),但Gemma 4是第一个在“明星模型”中落地这一技术的案例,这让它从学术概念变成了工程实践的可选项。

与KV共享配套的另一项设计是**逐层嵌入。**传统架构中,每一层的输入都来自同一个嵌入层;而在Gemma 4的小型变体中,不同层可以接收不同粒度的输入表示。这一设计使得模型可以根据层在“局部→全局”注意力结构中的位置,动态调整输入信息的分辨率,进一步压缩了不必要的计算开销。

**实践启示:**如果你的Agent需要处理超长上下文但运行在消费级硬件上,跨层KV共享是一个值得重点关注的方案。它不是“黑科技”,但它用最朴素的方式解决了最现实的问题——复用已有的计算结果,避免重复劳动。

ZAYA1:在注意力里“夹带”卷积

接下来是Zyphra团队发布的ZAYA1-8B模型。它的特殊之处有两个:一是全球首个在纯AMD平台上完成训练的大型MoE模型,二是在注意力机制中引入了一项名为**压缩卷积注意力(CCA)**的技术。

CCA的核心思想出人意料地直接:在注意力计算的头内部,用卷积操作替代标准注意力中部分矩阵乘法,且整个计算完全在潜在空间中进行。

这带来的效果是一举多得的:参数量减少,预填充计算量降低,KV缓存规模缩小,同时在loss/flop指标上反而更优。

具体数据方面,ZAYA1的CCA注意力使显存占用下降约32%,长上下文吞吐量提升约18%。它还与4:1的分组查询注意力(GQA)配合使用——8个查询头共享2个键值头,进一步压缩了缓存规模。

Raschka对此的评价是,这个设计“相当精妙”,值得深入讨论。它展示了一个重要方向:注意力不一定非得是“全对全”的矩阵乘法。将卷积操作引入注意力计算,既保留了捕捉局部模式的能力,又大幅压缩了全局计算的开销。

**实践启示:**对于需要处理长序列但对推理速度有严格要求的Agent场景,CCA提供了一个有趣的替代方案。它提醒我们:注意力机制的设计空间远没有被穷尽,在经典组件中“夹带”一些信号处理领域的成熟操作,有时比从头发明新机制更有效。

Laguna XS.2:给注意力“分层”做预算

Poolside发布的Laguna XS.2是一个面向Agent编程和长周期软件工程任务的混合滑动窗口注意力MoE模型。它在40个Transformer层中做了一个大胆的预算分配:30层使用滑动窗口注意力(每层仅关注局部512个token),10层使用全局注意力。

这个3:1的分层比例不是随意拍脑袋的。Raschka解释说,它背后基于一个关键观察:不是所有层都需要看到所有token。浅层和中层通常处理局部语法和短距离语义,只有少数深层需要建立跨段落、跨文档的长距离依赖。

通过这种“分层注意力预算”设计,Laguna XS.2大幅降低了KV缓存需求,同时在长周期代码生成任务上保持了竞争力。它还使用了sigmoid门控配合每层的旋转位置编码尺度,来动态控制哪些层执行滑动窗口、哪些层执行全局注意力。

**实践启示:**这个案例对Agent设计者尤其有参考价值。如果你在构建一个需要持续维护长对话历史的编程Agent,不必为每一层都“开足马力”。把计算资源集中在真正需要“远见”的层上,剩下的层专注于眼前的事——就像一个好的工程团队,既有负责战术执行的一线工程师,也有负责战略视野的架构师。

DeepSeek V4:组合拳与“定海神针”

压轴的案例是2025年底发布的DeepSeek V4,Raschka将其视为“组合式优化”的典型代表。V4在注意力层面同时引入了CSA(压缩稀疏注意力)与HCA(重度压缩注意力)的混合架构——CSA对KV缓存进行序列维度压缩后再做稀疏注意力,HCA采用更激进的压缩但保留稠密注意力,二者协同工作,大幅降低了长输入场景下的临时内存需求。

但Raschka把更多的笔墨留给了一个看似不起眼的底层组件——残差连接的升级,也就是DeepSeek同期发布的mHC(流形约束的超连接)技术。

传统的Transformer残差连接是一个极其简单的操作:把当前层的输出直接加到输入上。这个“加法”看似平平无奇,但它解决了深层网络训练中梯度消失和信号衰减的核心问题,可以说是深度学习的“定海神针”。然而,当模型扩展到数百层、数千层时,这种简单加法的局限性开始显现——信号在多车道残差流中传播时可能出现不稳定甚至梯度爆炸。

mHC的解决方案可以被通俗地理解为:给每条残差流中的“车道”之间设置了一个受约束的混合矩阵,限制信号在各车道之间交互的方式和幅度。

这就像在高速公路上设置了限速和变道规则——车还是可以变道,但不能随意横穿。论文实验表明,mHC仅增加了约6.7%的训练开销,却显著提升了大规模训练的稳定性和可扩展性。

DeepSeek V4将mHC与CSA/HCA混合注意力、细粒度MoE路由等技术组合在一起,构建了一个在百万token上下文下仍能高效运作的架构。V4-Pro总参数达1.6万亿,激活参数仅49B,这意味着它在保持巨大知识容量的同时,推理成本被控制在一个可管理的区间。

Raschka的评价颇高——他认为这些“在我的架构图中看起来很小的改动”,实际上是一些“相当复杂的设计变化”,它们共同构成了2025年LLM架构演进中技术含量最高的篇章。

实践启示:DeepSeek V4的案例告诉我们,架构创新不一定需要推倒重来。**对Transformer骨架中那些“理所当然”的组件(如残差连接)进行精细的重新设计,叠加注意力层面的分层压缩策略,可以产生组合式的放大效应。**对于有足够工程资源进行定制化模型训练的团队来说,mHC提供了一个可落地的优化方向。

从四幅图景中看到的共同逻辑

把四个模型的创新摆在一起看,Raschka梳理出了几条跨模型的设计范式。这些范式虽然尚未成为行业标准,但已经展现出强烈的趋势信号。

注意力计算不再是“一层不变”的

Gemma 4的KV共享、ZAYA1的CCA、Laguna XS.2的分层注意力预算、DeepSeek V4的CSA/HCA混合架构——这四种技术分属不同流派,但有一个共同的底色:注意力机制不再被当作一个统一的、在所有层上完全相同操作的“黑盒”。

过去的做法是:每一层都独立地、完整地计算所有token之间的注意力分数。而今的做法是:不同层可以执行不同类型的注意力,有些层甚至可以“借用”其他层的计算结果。这种差异化设计正是降低长上下文成本的关键——因为不是每个token都需要被每一层“看见”。

从“压缩缓存”到“重构连接”

Raschka观察到的另一条脉络是从KV缓存压缩向更底层架构组件重构的延伸。MLA(多头潜在注意力)曾是DeepSeek V2/V3在KV压缩领域的代表性技术,通过低秩投影将KV缓存压缩至传统MHA的1/8至1/16。而在2025年的新模型中,优化正在向两个方向同时推进:一是注意力计算本身的压缩(CCA、CSA、HCA),二是残差连接等基础组件在深层网络中的稳定性改进(mHC)。

这意味着行业共识正在形成:长上下文推理的优化不能只做“表面文章”(压缩缓存),还需要做“底层手术”(重构连接和信号传播机制)。

开放权重模型成为架构创新的试验场

还有一个值得注意的现象:上述四项技术分别来自Google、Zyphra、Poolside和DeepSeek,且均以开放权重或开源形式发布。这与几年前闭源模型在架构上“秘而不宣”的风气形成了鲜明对比。

Raschka在文章中特别提到了LLM架构画廊这个资源,它将GQA、MLA、滑动窗口注意力、稀疏注意力等概念以独立教程页面和模型卡片的形式组织起来,方便工程师查阅和对比。这种知识共享的氛围,正推动着整个行业在架构层面的快速迭代。


01

什么是AI大模型应用开发工程师?

如果说AI大模型是蕴藏着巨大能量的“后台超级能力”,那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。

AI大模型应用开发工程师是基于AI大模型,设计开发落地业务的应用工程师。

这个职业的核心价值,在于打破技术与用户之间的壁垒,把普通人难以理解的算法逻辑、模型参数,转化为人人都能轻松操作的产品形态。

无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能,还是办公场景中的自动记账工具、会议记录用的语音转文字APP,这些看似简单的应用背后,都是应用开发工程师在默默搭建技术与需求之间的桥梁。

他们不追求创造全新的大模型,而是专注于让已有的大模型“听懂”业务需求,“学会”解决具体问题,最终形成可落地、可使用的产品。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料,这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

02

AI大模型应用开发工程师的核心职责

需求分析与拆解是工作的起点,也是确保开发不偏离方向的关键。

应用开发工程师需要直接对接业务方,深入理解其核心诉求——不仅要明确“要做什么”,更要厘清“为什么要做”以及“做到什么程度算合格”。

在此基础上,他们会将模糊的业务需求拆解为具体的技术任务,明确每个环节的执行标准,并评估技术实现的可行性,同时定义清晰的核心指标,为后续开发、测试提供依据。

这一步就像建筑前的图纸设计,若出现偏差,后续所有工作都可能白费。

技术选型与适配是衔接需求与开发的核心环节。

工程师需要根据业务场景的特点,选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同,选型的合理性直接影响最终产品的表现。

同时,他们还要对行业相关数据进行预处理,通过提示词工程优化模型输出,或在必要时进行轻量化微调,让基础模型更好地适配具体业务。

此外,设计合理的上下文管理规则确保模型理解连贯需求,建立敏感信息过滤机制保障数据安全,也是这一环节的重要内容。

应用开发与对接则是将方案转化为产品的实操阶段。

工程师会利用选定的开发框架构建应用的核心功能,同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通,确保数据流转顺畅。

在这一过程中,他们还需要配合设计团队打磨前端交互界面,让技术功能以简洁易懂的方式呈现给用户,实现从技术方案到产品形态的转化。

测试与优化是保障产品质量的关键步骤。

工程师会开展全面的功能测试,找出并修复开发过程中出现的漏洞,同时针对模型的响应速度、稳定性等性能指标进行优化。

安全合规性也是测试的重点,需要确保应用符合数据保护、隐私安全等相关规定。

此外,他们还会收集用户反馈,通过调整模型参数、优化提示词等方式持续提升产品体验,让应用更贴合用户实际使用需求。

部署运维与迭代则贯穿产品的整个生命周期。

工程师会通过云服务器或私有服务器将应用部署上线,并实时监控运行状态,及时处理突发故障,确保应用稳定运行。

随着业务需求的变化,他们还需要对应用功能进行迭代更新,同时编写完善的开发文档和使用手册,为后续的维护和交接提供支持。

03

薪资情况与职业价值

市场对这一职业的高度认可,直接体现在薪资待遇上。

据猎聘最新在招岗位数据显示,AI大模型应用开发工程师的月薪最高可达60k。

在AI技术加速落地的当下,这种“技术+业务”的复合型能力尤为稀缺,让该职业成为当下极具吸引力的就业选择。

AI大模型应用开发工程师是AI技术落地的关键桥梁。

他们用专业能力将抽象的技术转化为具体的产品,让大模型的价值真正渗透到各行各业。

随着AI场景化应用的不断深化,这一职业的重要性将更加凸显,也必将吸引更多人才投身其中,推动AI技术更好地服务于社会发展。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料,这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

http://www.jsqmd.com/news/848047/

相关文章:

  • 保姆级教程:在Ubuntu 20.04上用kitti2bag工具把KITTI Raw Data转成ROS Bag(避坑实录)
  • Perplexity企业级部署实战(内部培训绝密文档节选):权限管控、审计日志与SAML单点登录配置详解
  • 2026年Q2川内别墅防水可靠服务商综合排行一览:成都彩钢房防水/成都楼顶防水/成都防水检测/成都防水补漏/楼顶防水/选择指南 - 优质品牌商家
  • Linux块设备驱动开发实战:从内存设备到blk-mq框架详解
  • CTF新手必看:5种音频隐写术的实战破解指南(附工具下载链接)
  • CAXA 公式曲线
  • 嵌入式DMA原理与实战:从CPU解放到高效数据搬运
  • 优之彩的不锈钢实心台面,为什么是厨房装修的“长期主义者”?
  • 2026上海GEO优化技术解析与专业服务商实测参考 - 得赢
  • 别再死记硬背了!用这套‘四层架构’模型,轻松搞定物联网面试(附MQTT/CoAP实战对比)
  • WinDirStat终极指南:如何快速找到并清理Windows磁盘空间
  • Perplexity算法与传统BM25查询评分的本质差异(仅0.3%的AI平台工程师真正理解)
  • 广州小程序定制公司:满足企业多样化需求的理想选择
  • 高级磁盘空间管理:WinDirStat深度配置与自动化清理指南
  • 从Coze多Agent协作到存算一体:揭秘下一代AI系统的算力架构演进
  • 如何让老旧PL2303芯片在Windows 10/11上完美运行:简单三步终极解决方案
  • QQ音乐解析技术:突破平台限制,构建个人音乐库的Python解决方案
  • QuickLookVideo:终极免费的macOS视频预览解决方案,简单快速提升Finder效率
  • 胶子猜想7-看望夸克家族并问好
  • 研华MIO-5350嵌入式主板解析:Apollo Lake平台在严苛环境下的应用
  • 别再让X-Powered-By头出卖你的服务器!一份给运维和开发的安全响应头配置清单
  • 用雷神官方口令就能兑换免费游戏时长,这波操作夯爆了! - 雨林谷
  • 靠谱的深圳App开发公司助力企业数字化转型与业务升级
  • 基于小安派BW21的I2C总线扫描程序开发与调试指南
  • 基于SUMO与PPO的智能换道决策实战:从环境构建到模型部署
  • 高效绕过iOS激活锁:Applera1n实用指南
  • Fire Dynamics Simulator(FDS)终极指南:三步掌握专业火灾模拟技术
  • ScienceDecrypting终极指南:如何永久解锁您的加密学术文献
  • CentOS7安装mysql
  • CAXA 齿轮齿形