当前位置：首页 > news >正文

DeepSeek V4大模型算法解析

news 2026/4/28 1:34:34

期待已久的DeepSeek V4大模型终于在4月24日正式发布了！V4系列共推出了两款MoE混合专家模型，即DeepSeek-V4-Pro和DeepSeek-V4-Flash，都支持百万级上下文Token。

这标志着开源大模型在长上下文效率上的一次范式级突破。它通过注意力压缩、残差连接优化和新型优化器，解决了百万token场景下成本过高的痛点，让长序列处理不再是闭源模型的专利。

如上表格所示，V4-Pro属于旗舰高性能版本，聚焦复杂推理和Agent业务场景；而V4-Flash属于高效经济型，适应于轻量化部署场景。

为了支撑百万级Token上下文，V4系列做了三个关键的底层优化：第一个就是混合注意力架构（CSA + HCA），即结合压缩稀疏注意力（CSA：Compressed Sparse Attention）和重度压缩注意力（HCA：Heavily Compressed Attention），大幅降低长上下文的计算开销。对比前代V3.2，在1M Token场景下，V4-Pro的单Token推理FLOPs仅为27%，KV缓存仅为10%，效率提升显著。

第二个是流形约束超连接（mHC），对传统残差连接进行增强，优化梯度流动，提升模型训练稳定性与收敛效率。想了解mHC技术细节的同学，可以翻看我之前的文章：从残差到流形：DeepSeek mHC为基础模型进化指明的新方向。

第三个则是Muon优化器，替换传统优化器，实现更快的训练收敛速度和更高的稳定性，支撑32T级别的大规模数据预训练。优化器也是模型训练过程中非常关键的部分，V4的两款模型均在超过32T高质量Token上完成了预训练，并通过完善的后训练流程进一步强化能力。同时，V4-Pro的Max模式即最大推理模式，刷新了开源模型的性能标杆，在核心任务上全面超越前代。

DeepSeek V4技术报告 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

从下面的对比图表可以明显看出，DeepSeek V4的代码相关能力基本和全球领先的Claude-Opus以及GPT5x几乎持平，更重要的是，成本相比于之前的V3.2成十倍速下降！

一、整体架构

如上图所示，DeepSeek-V4依然是基于Transformer的堆叠架构（Block x L），但做了三大核心改造，从Embedding开始，输入信号会经过mHC（Manifold-Constrained Hyper-Connections）增强的残差连接，以及CSA和HCA进行多路处理。

注意力层
采用CSA/HCA混合注意力替代传统注意力，解决百万Token长上下文效率问题；
前馈层
沿用DeepSeekMoE混合专家架构，保持大模型的知识容量与性能；
残差连接
用mHC（流形约束超连接）强化残差通路，缓解深度模型的信号衰减；
顶部保留了Prediction Head（主LM损失）和MTP Modules（多token预测损失）双路训练目标；

这里补充一下，mHC流形约束超连接本质上是对原始Transformer架构里面的Residual Connection做的优化，原始RC其实就是一条直线连接，避免神经网络层数加深之后的梯度爆炸或消失问题，但方案层面相对粗糙，mHC则通过流形约束，让token表示始终保持在稳定的几何空间中，防止深层网络梯度消失或爆炸，具体如下图所示。

这样说可能比较抽象，我们还是对一些关键概念做一下解释，我们之前在一文读懂QWen3-Max-Thinking模型，里面讲过Transformer模型的几个核心组件，提到了Residual Connection残差连接是其中非常重要的一个模块，有了RC，可以保证模型始终能够获取原始的输入信息，从而确保模型训练过程稳定，不会突然因为梯度消失或者梯度爆炸而中断。

RC标准残差，有其自身的弱点，简洁单一（之前提到过，就是直通），但表达能力有限。输入信号Xt直接通过一条 “绿色通道”，和经过层变换后的F(Xt)做加法，得到Xt+1=Xt+F(Xt)。当F(Xt) = 0的时候，Xt+1=Xt，即满足恒等映射。但是RC只允许Xt信号通过，不允许其他信息分支做混合，因此信息混合模式单一，也就限制了它的表达能力。

HC超连接，在RC基础上做了进一步优化，它引入了前映射（Pre Mapping）、残差映射（Res Mapping）和后映射（Post Mapping）。输入信号Xt不再是简单地直接相加，而是先经过pre-Mapping前映射和res-Mapping残差映射，生成多个信息分支，然后在post-Mapping后映射中进行复杂的加权混合，最后才输出到下一层。

所以，在HC架构下，原始信号Xt必须和其他分支的信息一起，在一个巨大的 “混合矩阵” 里重新分配权重。这个矩阵可以是任意的，没有任何约束。问题在于，这时候即便让模型什么都不做，即F(Xt)=0，也无法满足恒等映射，原始信号要么被放大、要么被缩小，训练中就体现为梯度爆炸或者梯度消失。

mHC，规定混合矩阵的每一行和每一列的和都必须是1，这点非常重要，正是基于这个“限制”，使得信息在传播时，就始终是在做 “加权平均”，而不是 “无限放大”，从而恢复了 “恒等映射” 的特性，让训练重新变得稳定。当模型 “什么都不做” 时，即F(Xt)=0，混合矩阵可以退化成单位矩阵，信号就能像在标准RC里一样，完美地传递下去。

恒等映射：Identity Mapping

连接类型	训练稳定性	表达能力
RC标准残差	极高满足恒等映射很少有梯度爆炸和消失	比较有限信息混合模式单一
HC超连接	极差不满足恒等映射经常发生梯度爆炸和消失	极强信息混合模式丰富提升了模型的拟合能力。
mHC 流形约束超连接	极高满足恒等映射很少有梯度爆炸和消失	极强信息混合模式丰富提升了模型的拟合能力

在数学里，manifold流形就是一个满足特定条件的集合。比如，所有满足 “行和 = 1，列和 = 1，元素非负” 的矩阵，就构成了一个流形，这个流形有个专门的名字，叫Birkhoff多面体。也就是说，所有合法的双随机矩阵，共同构成了一个有边界、有规则的数学空间。

因此，所谓mHC将超连接的残差连接空间投影Projection到一个特定的流形Birkhoff多面体上，就是强制混合矩阵只能在这个空间里（双随机矩阵，你注意这是一个集合空间，有很多满足上面提到的条件的矩阵），而Sinkhorn-Knopp算法，就是完成这个映射的高效工具。

Sinkhorn-Knopp算法的核心是交替地对矩阵的行和列进行归一化，通过迭代把一个非负矩阵 “挤” 成双随机矩阵。具体算法讲解，可以参考我之前的文章：从残差到流形：DeepSeek mHC为基础模型进化指明的新方向。

Sinkhorn-Knopp算法的核心是交替地对矩阵的行和列进行归一化，通过迭代把一个非负矩阵 “挤” 成双随机矩阵。

1.）行归一化

把每一行的元素都除以该行的和，让每一行的和变成1。

2.）列归一化

把每一列的元素都除以该列的和，让每一列的和变成1。

最关键的点是这个归一化过程需要不断迭代的，因为行归一化和列归一化本身是有冲突的，因此要不断的做行和列的归一化，直到每一行和每一列的和都收敛到1（比如阈值<=10^−6，就停止迭代）。

回到架构图的主线，Residual Mixing即残差混合模块，是mHC的核心组件，主要有以下三个作用：

多流信号融合
对Embedding输出的向量进行跨流混合，让不同维度的语义信息提前交互，而不是只走单一残差通路；
流形约束稳定信号
通过双随机矩阵约束，保证向量的范数在混合过程中不会爆炸、消失，为后续上百层Transformer Block的堆叠提供稳定的信号基础；
适配动态路由
为后续Pre-Block Mixing、Post-Block Mixing的多路径信息传递做好准备，让模型可以根据输入动态调整信息流动；

如下图所示，同样的Input Tokens在Embedding之后兵分两路，一路直接上去走Residual Mixing，另一路右转走Pre-Block mixing，经过CSA、HCA、Post-Block Mixing处理之后，再混合到一起。

提醒一下，下面这个图和标准Transformer的残差图，正好左右调过来了。标准Transformer的左侧是Attention计算，右边是残差；而这里正好相反，左侧是残差，右侧是压缩的Attention计算。

主路（右转）：Transformer 计算流
Embedding → Pre-Block Mixing → CSA/HCA注意力层 → Post-Block Mixing：这是模型的“计算核心”，负责通过注意力机制提取长文本中的关联信息，生成新的特征向量。
残差路（左侧直上）：稳定信号流
Embedding→Residual Mixing：这是模型的“稳定锚点”，负责在不经过复杂计算的情况下，保留初始信号的基础信息，防止深层网络中特征消失或梯度爆炸。

二、核心算法

之前提到了，如果要支持一百万上下文Token的话，是必须要压缩的，否则按照标准Transformer计算Attention的时间复杂度是O（N^2 · d），其中N是Token数，d是模型隐藏层维度，总体代价是不可接受的（百万Token也就是10^12即万亿级别两两交互，无论显存、算力、延迟都完全不具备工程落地可能）！因此，DeepSeek V4采用了CSA和HCA相结合的压缩方案。

1.）CSA：Compressed Sparse Attention

CSA的核心是解决传统注意力在超长序列下的算力和内存瓶颈问题。CSA通过“压缩 + 稀疏选择 + 局部增强”三步，将KV缓存规模压缩为原来的1/m，同时保证长序列依赖建模能力。

压缩阶段：Token-Level Compressor

对所有KV token的隐藏状态进行Token级压缩，将多个token合并为一个压缩单元，大幅减少KV序列长度（压缩为原来的1/m，m是压缩倍数）；同时，Query也会经过压缩，生成Indexer Queries，用于后续的稀疏选择。

稀疏选择阶段：Lightning Indexer + Top-k Selector

压缩后的KV Key生成Compressed Indexer Keys，与Indexer Queries做轻量级的Multi-Query Attention，快速计算出Index Scores，得到压缩KV单元与当前Query的相关性得分。

Top-k Selector根据Index Scores选出与当前Query最相关的Top-k个压缩KV单元，只保留这些单元进入后续计算。

局部增强：Sliding Window KV Entries

为了避免压缩和稀疏选择丢失局部细节，CSA会额外保留一个固定大小的滑动窗口内的原始KV token（并未压缩）；这些局部KV会和选中的压缩KV单元拼接，共同作为最终的注意力KV集合，兼顾全局关联与局部细节。

最终计算：Shared Key-Value Multi-Query Attention

拼接后的KV集合（压缩Top-k + 滑动窗口）与原始Query进行标准的Multi-Query Attention计算，既大幅降低了KV缓存规模和计算量，又保证了注意力结果的质量。

算法公式分析：共三个阶段

第一阶段：计算Ci^Comp

首先，对输入隐藏状态H做线性投影，生成两组独立的KV序列(C^a、Cb)，以及对应的压缩权重序列(Z^a、Zb)。用两组独立的序列做压缩，避免单序列压缩时信息丢失；同时，Z^a和Zb又是可学习的“压缩权重打分器”，后续会用它们计算每个原始条目在压缩单元中的贡献占比。

接下来，计算压缩权重分布，输入是(Z^a、Zb)中对应窗口的片段 + 位置偏置(B^a、Bb)；输出则是两组权重S^a和Sb，拼接后长度为2m，表示每个原始KV条目在压缩单元中的权重占比。

设计的细节：

窗口设计是重叠式的：C^{a取第mi到(m(i+1)-1)个条目，(C}b)取第(m(i-1))到(mi-1)个条目，两个窗口重叠了m个位置，保证序列信息连续不丢失；这里的窗口重叠是滑动重叠的意思，下一个C^{b和上一个C}a是重叠的，即当i-1时，C^b和Ca分别是m(i-1)，(mi -1) -> mi，(m(i+1) -1)；而当i时，则mi，(m(i+1) -1) -> m(i+1)，（m(i+2)-1），重叠部分已标成蓝色。
(B^a、Bb)
是可学习的位置偏置，让模型自动学习“窗口内靠前、靠后的条目对压缩单元的重要性”；
Softmax（·）
把2m个元素归一化，保证所有权重之和为1。

生成压缩后的KV条目：

上面公式是利用公式11的Softmax算出的权重，对窗口内的原始KV条目做加权求和，得到最终的压缩单元C_i^{Comp。等号右侧第一部分是对C}a窗口内的m个条目，用S^{a做加权元素乘后求和；第二部分是对C}b窗口内的m个条目，用S^b做加权元素乘后求和；两部分相加，得到第i个压缩 KV 条目，维度仍为c，但序列长度从n变成了n/m（其中n是原序列长度，m是压缩倍数）。

整体压缩效果：

整个压缩过程的复杂度是O(n·d·c)，和序列长度线性相关，不会像注意力一样出现O(n^2)的复杂度爆炸；
压缩后的KV序列长度变为n/m，后续注意力计算的复杂度直接降为原来的1/m，这是百万token场景下效率提升的核心基础；

CSA的总体压缩流程

第二阶段：Lightning Indexer：

Lightning Indexer的核心作用是在压缩后的KV集合上，快速筛选出与当前Query 最相关的Top-k个块，大幅降低后续注意力的计算量。

Query侧：低秩生成Indexer Queries

输入是当前Query token的隐藏状态ht（d维），然后做两步低秩生成：

计算Index Scores：Query与压缩KV块的相关性

Index Scores是压缩环境下的轻量相关性预筛选，借鉴了Transformer的Q-K相关性思想，但做了轻量化改造，方便后续核心注意力筛选出最相关的Top-k个压缩KV块。

对每个压缩块s（s < t/m ），计算Query t和它的相关性得分It,s。通过多头打分 + 可学习权重，让模型能从多个维度判断KV块的相关性，比单头打分更精准。

本质上还是Transformer的经典Q、K、V机制求Attention即相关性，只是计算的上下文是压缩的环境，因此做了一些优化和改变。例如，这里没有做Softmax，只是做了线性点积 + ReLU，和标准注意力的Softmax(QK^T)不一样，这是Indexer为了提速做的简化。另外，这里打分的目的是筛选Top-k块，而不是直接计算注意力权重，后续核心注意力会在筛选后的块上重新做标准Attention计算。具体流程如下：

这里用ReLU还有一个好处，就是保持数值稳定性。它把点积的输出限制在非负区间，防止后续加权求和时出现负数抵消，让得分的物理意义更明确（分数越高相关性越强）。

Top-k稀疏选择：

对所有压缩块的得分It进行排序，只保留得分最高的Top-k个块。得到稀疏压缩后的KV集合，Ct^SprsComp；后续的核心注意力，只需要在这Top-k个块上计算，而不是整个压缩后的序列，算力开销再次大幅降低。

第三阶段：Shared KV MQA + 分组输出投影

所谓Shared就是共享或者复用的意思，这里的查询隐向量Ct^Q就是直接共享给MQA模块的（来自上一步的Indexer Queries），避免了重复投影，减少额外开销；同时，Ct^SprsComp既是MQA的Key，也是Value（Shared Key-Value），进一步减少内存占用。这里重点说一下Key和Value只是存储在同一个压缩单元（或者说集合），并不意味着key和value是相等的，

算力收益叠加明显，压缩阶段，序列长度从n压缩到了n/m；稀疏选择阶段，序列长度从n/m压缩到k（k<< n/m）；最终注意力复杂度直接从O(n^2)降低到了O(n·k)，支持百万级上下文的Token推理。

整个流程通过“压缩 → 筛选 → 计算”的三级优化，把超长序列的注意力开销降到了线性复杂度，同时通过滑动窗口保留局部细节，是DeepSeek-V4百万token效率的核心技术。

我们把三阶段算法做个对比总结：

2.) HCA：Heavily Compressed Attention

上图展示了DeepSeek-V4中重度压缩注意力（HCA）的核心流程，它是CSA的“极端高效版”，专门用于处理超长序列的全局依赖建模。两者在模型中交替使用，CSA负责“精准抓重点”，HCA负责“高效看全局”，共同支撑百万token上下文。整体架构也是典型的双路处理结构，包括全局压缩和局部增强两路处理流程。

全局压缩：Token-Level Compressor

对所有KV token做重度压缩，每m’个token（m’远大于CSA的压缩倍数m）合并为一个压缩单元，得到Heavily Compressed KV Entries。这一步直接将KV序列长度压缩为原来的1/m’，大幅降低后续注意力的计算成本。

局部增强：Sliding Window KV Entries

额外保留一个小滑动窗口内的原始KV token（未压缩），直接送入后续拼接，目的是避免过度压缩丢失局部细节，保证文本中相邻token的细粒度依赖关系。

融合与计算：

Concatenation即融合是将重度压缩后的全局KV单元，和滑动窗口内的局部KV单元拼接，形成最终的KV集合；Shared Key-Value Multi-Query Attention则是用拼接后的KV集合与Query做注意力计算，输出最终结果。

算法分析：

算法层面HCA和CSA非常类似，就不再赘述了。HCA的压缩率明显更高，并且没有任何overlap。

这里的核心注意力计算公式，还是遵循标准的QKV计算：

标准的多头注意力公式，内部逻辑不变：

但是KV的来源，压缩方式，计算复杂度都有了很大的变化：

写到这里，我们给CSA和HCA做一个简单的对比总结：

三、实验结果

最后说一下DeepSeek V4的代码能力，目前看处于快速追赶状态，已经超过了Sonnet，但是和Opus相比还是有不小的差距，论文里也非常直接的给出了对比数据，直面问题。

写到这里，DeepSeek V4的核心技术介绍就差不多了，其实里面还有很多干货，包括Muon优化器的技术细节，On-Policy Distillation等等，这些后续会结合昇腾国产化适配单独做详解。

总结一下，DeepSeek-V4系通过整合压缩稀疏注意力（CSA）与重度压缩注意力（HCA）的混合注意力架构，在长序列处理效率上实现了跨越式提升。DeepSeek-V4系列开启了开源模型百万级上下文的新时代，并为更高效率、更大规模和更强智能的发展铺平了道路。

为追求极致的长上下文效率，DeepSeek-V4系列采用了大胆的架构设计。为降低研发风险，保留了许多经过初步验证的组件和工程技巧，这些设计虽然有效，但也让整体架构变得相对复杂。尽管预判式路由（Anticipatory Routing）和SwiGLU钳制（SwiGLU Clamping）已被证明能有效缓解训练不稳定性，但其底层原理仍未被充分理解。DS团队将积极研究训练稳定性的基础问题，并强化内部指标监控，旨在为大规模稳定训练建立更具原则性和可预测性的方法。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～