当前位置: 首页 > news >正文

DeepSeek V4大模型算法解析

期待已久的DeepSeek V4大模型终于在4月24日正式发布了!V4系列共推出了两款MoE混合专家模型,即DeepSeek-V4-Pro和DeepSeek-V4-Flash,都支持百万级上下文Token。

这标志着开源大模型在长上下文效率上的一次范式级突破。它通过注意力压缩、残差连接优化和新型优化器,解决了百万token场景下成本过高的痛点,让长序列处理不再是闭源模型的专利。

如上表格所示,V4-Pro属于旗舰高性能版本,聚焦复杂推理和Agent业务场景;而V4-Flash属于高效经济型,适应于轻量化部署场景。

为了支撑百万级Token上下文,V4系列做了三个关键的底层优化:第一个就是混合注意力架构(CSA + HCA),即结合压缩稀疏注意力(CSA:Compressed Sparse Attention)重度压缩注意力(HCA:Heavily Compressed Attention),大幅降低长上下文的计算开销。对比前代V3.2,在1M Token场景下,V4-Pro的单Token推理FLOPs仅为27%,KV缓存仅为10%,效率提升显著。

第二个是流形约束超连接(mHC),对传统残差连接进行增强,优化梯度流动,提升模型训练稳定性与收敛效率。想了解mHC技术细节的同学,可以翻看我之前的文章:从残差到流形:DeepSeek mHC为基础模型进化指明的新方向。

第三个则是Muon优化器,替换传统优化器,实现更快的训练收敛速度和更高的稳定性,支撑32T级别的大规模数据预训练。优化器也是模型训练过程中非常关键的部分,V4的两款模型均在超过32T高质量Token上完成了预训练,并通过完善的后训练流程进一步强化能力。同时,V4-Pro的Max模式即最大推理模式,刷新了开源模型的性能标杆,在核心任务上全面超越前代。

DeepSeek V4技术报告 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

从下面的对比图表可以明显看出,DeepSeek V4的代码相关能力基本和全球领先的Claude-Opus以及GPT5x几乎持平,更重要的是,成本相比于之前的V3.2成十倍速下降!

一、整体架构

如上图所示,DeepSeek-V4依然是基于Transformer的堆叠架构(Block x L),但做了三大核心改造,从Embedding开始,输入信号会经过mHC(Manifold-Constrained Hyper-Connections)增强的残差连接,以及CSA和HCA进行多路处理。

  • 注意力层

    采用CSA/HCA混合注意力替代传统注意力,解决百万Token长上下文效率问题;

  • 前馈层

    沿用DeepSeekMoE混合专家架构,保持大模型的知识容量与性能;

  • 残差连接

    mHC(流形约束超连接)强化残差通路,缓解深度模型的信号衰减;

  • 顶部保留了Prediction Head(主LM损失)和MTP Modules(多token预测损失)双路训练目标;

这里补充一下,mHC流形约束超连接本质上是对原始Transformer架构里面的Residual Connection做的优化,原始RC其实就是一条直线连接,避免神经网络层数加深之后的梯度爆炸或消失问题,但方案层面相对粗糙,mHC则通过流形约束,让token表示始终保持在稳定的几何空间中,防止深层网络梯度消失或爆炸,具体如下图所示。

这样说可能比较抽象,我们还是对一些关键概念做一下解释,我们之前在一文读懂QWen3-Max-Thinking模型,里面讲过Transformer模型的几个核心组件,提到了Residual Connection残差连接是其中非常重要的一个模块,有了RC,可以保证模型始终能够获取原始的输入信息,从而确保模型训练过程稳定,不会突然因为梯度消失或者梯度爆炸而中断。

RC标准残差,有其自身的弱点,简洁单一(之前提到过,就是直通),但表达能力有限。输入信号Xt直接通过一条 “绿色通道”,和经过层变换后的F(Xt)做加法,得到Xt+1=Xt+F(Xt)。当F(Xt) = 0的时候,Xt+1=Xt,即满足恒等映射。但是RC只允许Xt信号通过,不允许其他信息分支做混合,因此信息混合模式单一,也就限制了它的表达能力。

HC超连接,在RC基础上做了进一步优化,它引入了前映射(Pre Mapping)、残差映射(Res Mapping)和后映射(Post Mapping)。输入信号Xt不再是简单地直接相加,而是先经过pre-Mapping前映射和res-Mapping残差映射,生成多个信息分支,然后在post-Mapping后映射中进行复杂的加权混合,最后才输出到下一层。

所以,在HC架构下,原始信号Xt必须和其他分支的信息一起,在一个巨大的 “混合矩阵” 里重新分配权重。这个矩阵可以是任意的,没有任何约束。问题在于,这时候即便让模型什么都不做,即F(Xt)=0,也无法满足恒等映射,原始信号要么被放大、要么被缩小,训练中就体现为梯度爆炸或者梯度消失。

mHC,规定混合矩阵的每一行和每一列的和都必须是1,这点非常重要,正是基于这个“限制”,使得信息在传播时,就始终是在做 “加权平均”,而不是 “无限放大”,从而恢复了 “恒等映射” 的特性,让训练重新变得稳定。当模型 “什么都不做” 时,即F(Xt)=0,混合矩阵可以退化成单位矩阵,信号就能像在标准RC里一样,完美地传递下去。

恒等映射:Identity Mapping

连接类型训练稳定性表达能力
RC标准残差极高 满足恒等映射 很少有梯度爆炸和消失比较有限 信息混合模式单一
HC超连接极差 不满足恒等映射 经常发生梯度爆炸和消失极强 信息混合模式丰富 提升了模型的拟合能力。
mHC 流形约束超连接极高 满足恒等映射 很少有梯度爆炸和消失极强 信息混合模式丰富提升了模型的拟合能力

在数学里,manifold流形就是一个满足特定条件的集合。比如,所有满足 “行和 = 1,列和 = 1,元素非负” 的矩阵,就构成了一个流形,这个流形有个专门的名字,叫Birkhoff多面体。也就是说,所有合法的双随机矩阵,共同构成了一个有边界、有规则的数学空间。

因此,所谓mHC将超连接的残差连接空间投影Projection到一个特定的流形Birkhoff多面体上,就是强制混合矩阵只能在这个空间里(双随机矩阵,你注意这是一个集合空间,有很多满足上面提到的条件的矩阵),而Sinkhorn-Knopp算法,就是完成这个映射的高效工具。

Sinkhorn-Knopp算法的核心是交替地对矩阵的行和列进行归一化,通过迭代把一个非负矩阵 “挤” 成双随机矩阵。具体算法讲解,可以参考我之前的文章:从残差到流形:DeepSeek mHC为基础模型进化指明的新方向。

Sinkhorn-Knopp算法的核心是交替地对矩阵的行和列进行归一化,通过迭代把一个非负矩阵 “挤” 成双随机矩阵。

1.)行归一化

把每一行的元素都除以该行的和,让每一行的和变成1。

2.)列归一化

把每一列的元素都除以该列的和,让每一列的和变成1。

最关键的点是这个归一化过程需要不断迭代的,因为行归一化和列归一化本身是有冲突的,因此要不断的做行和列的归一化,直到每一行和每一列的和都收敛到1(比如阈值<=10^−6,就停止迭代)。

回到架构图的主线,Residual Mixing即残差混合模块,是mHC的核心组件,主要有以下三个作用:

  • 多流信号融合

    对Embedding输出的向量进行跨流混合,让不同维度的语义信息提前交互,而不是只走单一残差通路;

  • 流形约束稳定信号

    通过双随机矩阵约束,保证向量的范数在混合过程中不会爆炸、消失,为后续上百层Transformer Block的堆叠提供稳定的信号基础;

  • 适配动态路由

    为后续Pre-Block Mixing、Post-Block Mixing的多路径信息传递做好准备,让模型可以根据输入动态调整信息流动;

如下图所示,同样的Input Tokens在Embedding之后兵分两路,一路直接上去走Residual Mixing,另一路右转走Pre-Block mixing,经过CSA、HCA、Post-Block Mixing处理之后,再混合到一起。

提醒一下,下面这个图和标准Transformer的残差图,正好左右调过来了。标准Transformer的左侧是Attention计算,右边是残差;而这里正好相反,左侧是残差,右侧是压缩的Attention计算。

  • 主路(右转):Transformer 计算流

    Embedding → Pre-Block Mixing → CSA/HCA注意力层 → Post-Block Mixing:这是模型的“计算核心”,负责通过注意力机制提取长文本中的关联信息,生成新的特征向量。

  • 残差路(左侧直上):稳定信号流

    Embedding→Residual Mixing:这是模型的“稳定锚点”,负责在不经过复杂计算的情况下,保留初始信号的基础信息,防止深层网络中特征消失或梯度爆炸。

二、核心算法

之前提到了,如果要支持一百万上下文Token的话,是必须要压缩的,否则按照标准Transformer计算Attention的时间复杂度是O(N^2 · d),其中N是Token数,d是模型隐藏层维度,总体代价是不可接受的(百万Token也就是10^12即万亿级别两两交互,无论显存、算力、延迟都完全不具备工程落地可能)!因此,DeepSeek V4采用了CSA和HCA相结合的压缩方案。

1.)CSA:Compressed Sparse Attention

CSA的核心是解决传统注意力在超长序列下的算力和内存瓶颈问题。CSA通过“压缩 + 稀疏选择 + 局部增强”三步,将KV缓存规模压缩为原来的1/m,同时保证长序列依赖建模能力。

压缩阶段:Token-Level Compressor

对所有KV token的隐藏状态进行Token级压缩,将多个token合并为一个压缩单元,大幅减少KV序列长度(压缩为原来的1/m,m是压缩倍数);同时,Query也会经过压缩,生成Indexer Queries,用于后续的稀疏选择。

稀疏选择阶段:Lightning Indexer + Top-k Selector

压缩后的KV Key生成Compressed Indexer Keys,与Indexer Queries做轻量级的Multi-Query Attention,快速计算出Index Scores,得到压缩KV单元与当前Query的相关性得分。

Top-k Selector根据Index Scores选出与当前Query最相关的Top-k个压缩KV单元,只保留这些单元进入后续计算。

局部增强:Sliding Window KV Entries

为了避免压缩和稀疏选择丢失局部细节,CSA会额外保留一个固定大小的滑动窗口内的原始KV token(并未压缩);这些局部KV会和选中的压缩KV单元拼接,共同作为最终的注意力KV集合,兼顾全局关联与局部细节。

最终计算:Shared Key-Value Multi-Query Attention

拼接后的KV集合(压缩Top-k + 滑动窗口)与原始Query进行标准的Multi-Query Attention计算,既大幅降低了KV缓存规模和计算量,又保证了注意力结果的质量。

算法公式分析:共三个阶段

第一阶段:计算Ci^Comp

首先,对输入隐藏状态H做线性投影,生成两组独立的KV序列(Ca、Cb),以及对应的压缩权重序列(Za、Zb)。用两组独立的序列做压缩,避免单序列压缩时信息丢失;同时,Za和Zb又是可学习的“压缩权重打分器”,后续会用它们计算每个原始条目在压缩单元中的贡献占比。

接下来,计算压缩权重分布,输入是(Za、Zb)中对应窗口的片段 + 位置偏置(Ba、Bb);输出则是两组权重Sa和Sb,拼接后长度为2m,表示每个原始KV条目在压缩单元中的权重占比。

设计的细节:

  • 窗口设计是重叠式的:Ca取第mi到(m(i+1)-1)个条目,(Cb)取第(m(i-1))到(mi-1)个条目,两个窗口重叠了m个位置,保证序列信息连续不丢失;这里的窗口重叠是滑动重叠的意思,下一个Cb和上一个Ca是重叠的,即当i-1时,Cb和Ca分别是m(i-1),(mi -1) -> mi,(m(i+1) -1);而当i时,则mi,(m(i+1) -1) -> m(i+1),(m(i+2)-1),重叠部分已标成蓝色。

  • (Ba、Bb)

    是可学习的位置偏置,让模型自动学习“窗口内靠前、靠后的条目对压缩单元的重要性”;

  • Softmax(·)

    把2m个元素归一化,保证所有权重之和为1。

生成压缩后的KV条目:

上面公式是利用公式11的Softmax算出的权重,对窗口内的原始KV条目做加权求和,得到最终的压缩单元C_iComp。等号右侧第一部分是对Ca窗口内的m个条目,用Sa做加权元素乘后求和;第二部分是对Cb窗口内的m个条目,用S^b做加权元素乘后求和;两部分相加,得到第i个压缩 KV 条目,维度仍为c,但序列长度从n变成了n/m(其中n是原序列长度,m是压缩倍数)。

整体压缩效果:

  • 整个压缩过程的复杂度是O(n·d·c),和序列长度线性相关,不会像注意力一样出现O(n^2)的复杂度爆炸;
  • 压缩后的KV序列长度变为n/m,后续注意力计算的复杂度直接降为原来的1/m,这是百万token场景下效率提升的核心基础;

CSA的总体压缩流程

第二阶段:Lightning Indexer:

Lightning Indexer的核心作用是在压缩后的KV集合上,快速筛选出与当前Query 最相关的Top-k个块,大幅降低后续注意力的计算量

Query侧:低秩生成Indexer Queries

输入是当前Query token的隐藏状态ht(d维),然后做两步低秩生成:

计算Index Scores:Query与压缩KV块的相关性

Index Scores是压缩环境下的轻量相关性预筛选,借鉴了Transformer的Q-K相关性思想,但做了轻量化改造,方便后续核心注意力筛选出最相关的Top-k个压缩KV块。

对每个压缩块s(s < t/m ),计算Query t和它的相关性得分It,s。通过多头打分 + 可学习权重,让模型能从多个维度判断KV块的相关性,比单头打分更精准。

本质上还是Transformer的经典Q、K、V机制求Attention即相关性,只是计算的上下文是压缩的环境,因此做了一些优化和改变。例如,这里没有做Softmax,只是做了线性点积 + ReLU,和标准注意力的Softmax(QK^T)不一样,这是Indexer为了提速做的简化。另外,这里打分的目的是筛选Top-k块,而不是直接计算注意力权重,后续核心注意力会在筛选后的块上重新做标准Attention计算。具体流程如下:

这里用ReLU还有一个好处,就是保持**数值稳定性。**它把点积的输出限制在非负区间,防止后续加权求和时出现负数抵消,让得分的物理意义更明确(分数越高相关性越强)。

Top-k稀疏选择:

对所有压缩块的得分It进行排序,只保留得分最高的Top-k个块。得到稀疏压缩后的KV集合,Ct^SprsComp;后续的核心注意力,只需要在这Top-k个块上计算,而不是整个压缩后的序列,算力开销再次大幅降低。

第三阶段:Shared KV MQA + 分组输出投影

所谓Shared就是共享或者复用的意思,这里的查询隐向量Ct^Q就是直接共享给MQA模块的(来自上一步的Indexer Queries),避免了重复投影,减少额外开销;同时,Ct^SprsComp既是MQA的Key,也是Value(Shared Key-Value),进一步减少内存占用。这里重点说一下Key和Value只是存储在同一个压缩单元(或者说集合),并不意味着key和value是相等的,

算力收益叠加明显,压缩阶段,序列长度从n压缩到了n/m;稀疏选择阶段,序列长度从n/m压缩到k(k<< n/m);最终注意力复杂度直接从O(n^2)降低到了O(n·k),支持百万级上下文的Token推理。

整个流程通过“压缩 → 筛选 → 计算”的三级优化,把超长序列的注意力开销降到了线性复杂度,同时通过滑动窗口保留局部细节,是DeepSeek-V4百万token效率的核心技术。

我们把三阶段算法做个对比总结:

2.) HCA:Heavily Compressed Attention

上图展示了DeepSeek-V4中重度压缩注意力(HCA)的核心流程,它是CSA的“极端高效版”,专门用于处理超长序列的全局依赖建模。两者在模型中交替使用,CSA负责“精准抓重点”,HCA负责“高效看全局”,共同支撑百万token上下文。整体架构也是典型的双路处理结构,包括全局压缩和局部增强两路处理流程。

全局压缩:Token-Level Compressor

对所有KV token做重度压缩,每m’个token(m’远大于CSA的压缩倍数m)合并为一个压缩单元,得到Heavily Compressed KV Entries。这一步直接将KV序列长度压缩为原来的1/m’,大幅降低后续注意力的计算成本。

局部增强:Sliding Window KV Entries

额外保留一个小滑动窗口内的原始KV token(未压缩),直接送入后续拼接,目的是避免过度压缩丢失局部细节,保证文本中相邻token的细粒度依赖关系。

融合与计算:

Concatenation即融合是将重度压缩后的全局KV单元,和滑动窗口内的局部KV单元拼接,形成最终的KV集合;Shared Key-Value Multi-Query Attention则是用拼接后的KV集合与Query做注意力计算,输出最终结果。

算法分析:

算法层面HCA和CSA非常类似,就不再赘述了。HCA的压缩率明显更高,并且没有任何overlap。

这里的核心注意力计算公式,还是遵循标准的QKV计算:

标准的多头注意力公式,内部逻辑不变:

但是KV的来源,压缩方式,计算复杂度都有了很大的变化:

写到这里,我们给CSA和HCA做一个简单的对比总结:

三、实验结果

最后说一下DeepSeek V4的代码能力,目前看处于快速追赶状态,已经超过了Sonnet,但是和Opus相比还是有不小的差距,论文里也非常直接的给出了对比数据,直面问题。

写到这里,DeepSeek V4的核心技术介绍就差不多了,其实里面还有很多干货,包括Muon优化器的技术细节,On-Policy Distillation等等,这些后续会结合昇腾国产化适配单独做详解。

总结一下,DeepSeek-V4系通过整合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的混合注意力架构,在长序列处理效率上实现了跨越式提升。DeepSeek-V4系列开启了开源模型百万级上下文的新时代,并为更高效率、更大规模和更强智能的发展铺平了道路。

为追求极致的长上下文效率,DeepSeek-V4系列采用了大胆的架构设计。为降低研发风险,保留了许多经过初步验证的组件和工程技巧,这些设计虽然有效,但也让整体架构变得相对复杂。尽管预判式路由(Anticipatory Routing)和SwiGLU钳制(SwiGLU Clamping)已被证明能有效缓解训练不稳定性,但其底层原理仍未被充分理解。DS团队将积极研究训练稳定性的基础问题,并强化内部指标监控,旨在为大规模稳定训练建立更具原则性和可预测性的方法。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/711417/

相关文章:

  • Python 爬虫进阶技巧:Session 复用减少重复登录开销
  • LeetCode HOT100 - 寻找两个正序数组的中位数
  • ANI3DHUMAN:3D人体动画技术的自引导随机采样解析
  • 职场利器!OpenClaw 汉化版极简安装上手指南
  • 企业宣传短片,如何选对制作公司让品牌价值翻倍?
  • Windows AirPlay 2接收器终极方案:免费实现iOS设备投屏到Windows电脑
  • 2026年轻钢龙骨怎么选 实用干货帮你挑正规靠谱品牌
  • 5步掌握雀魂AI智能辅助工具:提升麻将水平的终极指南
  • YOLOv13涨点改进| WACV 2026 | 独家创新首发、Conv卷积改进篇 |引入SimConv相似卷积模块,实现自适应感受野调整,克服传统卷积固定卷积局限,助力小目标检测、图像分割等高效涨点
  • 基于非线性模型预测控制NMPC+QP求解器(qpOASES和qpDUNES)+ACADO工具包车辆自主导航、车道跟踪与避障控制(Matlab代码实现)
  • 《初学C语言》第三讲:printf函数和scanf函数
  • 2026年q2道路花箱选型技术推荐:不锈钢花箱,不锈钢镀锌板花箱,人行横道花箱,园林花箱,排行一览! - 优质品牌商家
  • 从Jupyter Notebook一键转生产沙箱:3步实现AI代码自动容器化+依赖锁定+网络策略注入(2026 Docker Desktop 4.32新功能深度拆解)
  • Trae入门
  • 软考高级系统架构设计师备考(二十三):软件工程—逆向工程、正向工程与需求工程
  • 2026浏览器TLS指纹与JA3/JA4协议指纹技术深度解析及实现方案
  • 人力资源咨询公司,人力资源改革,国企改革咨询,成都咨询公司,成都管理咨询公司,绩效咨询公司,优选指南! - 优质品牌商家
  • StitchFlow:基于AI的本地化UI生成工具,打通产品简报到可交付代码
  • 告别‘抓瞎’!用CAPL的RS232函数自动抓取MCU Log保姆级教程
  • 72W碳化硅SIC电源方案(24V3A,12V6A)LP8841SC+LP35118N全电压,过认证,六级能效( BOM,典型电路)
  • 机器学习参数与超参数:核心区别与调优实践
  • 3步快速解锁碧蓝航线全皮肤:Perseus补丁终极指南
  • 大语言模型在文档伪造检测中的创新应用与实践
  • G-Helper实战指南:华硕笔记本开源硬件控制与性能调优
  • 全国省市区 JSON数据
  • 拜读了顶会顶刊上这些论文,原来多模态特征融合是这么玩的
  • 大语言模型强化学习训练:BAPO算法解析与实践
  • 基于大模型的AI外呼系统:RAG与知识增强实践(三)
  • 终极电路设计神器:Draw.io电子工程绘图库完全指南
  • 告别轮询!用STM32F103的TIM+DMA搞定DHT11,实测代码不到100行