当前位置：首页 > news >正文

DeepSeek V1 到 V4 完整技术路线：每一代到底解决了什么问题？

news 2026/5/1 6:51:49

DeepSeek V1 到 V4 完整技术路线：每一代到底解决了什么问题？

这篇文章的目标，是用工程视角把 DeepSeek 的技术路线讲明白，而不是把一堆论文名和版本号按时间顺序重新复述一遍。

很多人第一次看到 DeepSeek，会有一种错觉：

怎么突然就冒出来一个又强、又快、又便宜、还开源的大模型？

如果只看最终结果，确实容易觉得它像“突然爆发”。但如果把路线拉长，你会发现 DeepSeek 的演进逻辑其实很稳定：

V1先补理论地基，重新研究 Scaling Law（规模扩展规律）
然后围绕两个最现实的问题下手：显存不够、计算太贵
接着把这些方法真正落到超大模型训练里，做出V3
再往上补推理能力、训练稳定性、长上下文能力，最后汇总到V4

一句话概括：

DeepSeek V4 不是横空出世，而是从 V1 开始，沿着“理论验证 -> 显存优化 -> 工程落地 -> 推理突破 -> 稳定性增强 -> 长上下文优化”一路迭代出来的。

先看整条路线的总览图：

+------------------+----------------------+------------------------------+ | 阶段 | 关键技术/版本 | 主要解决的问题 | +------------------+----------------------+------------------------------+ | 第一阶段 | V1 | 重新研究 Scaling Law（规模扩展规律），补地基 | | 成本优化一 | DeepSeek MoE（混合专家） | FFN（前馈神经网络）太贵，显存和计算压力大 | | 成本优化二 | MLA / V2 | KV Cache（历史 K/V 向量缓存）太大，注意力太贵 | | 工程落地 | V3 | 把优化真正堆成超大模型 | | 推理能力突破 | R1 | 不只会续写，还要学会推理 | | 稳定性增强 | MHC（带流形约束的超连接） | 模型更大后训练容易不稳定 | | 长上下文优化 | DSA / CSA / HCA（长上下文三种优化方案） | 上下文变长后注意力成本过高 | | 总装版本 | V4 | 汇总前面积累，形成完整体系 | +------------------+----------------------+------------------------------+

0. 先看结论：DeepSeek 这条路线到底特别在哪

如果只保留最重要的三点，我会这样总结：

它不是先赌“更大的模型”，而是先研究“怎样把模型做大这件事变得更可控”
它的很多创新都围绕一个共同目标：减少显存占用、降低单位计算成本、保持模型效果
它不是只做架构小修小补，后面还把训练范式、残差连接、长上下文处理都补上了

所以 DeepSeek 的路线，不太像“做一个更大的 GPT”，而更像：

先把规律摸清 -> 再把最贵的地方做便宜 -> 再把大模型真正稳定训出来 -> 再补推理和长上下文 -> 最终把前面的积累收束成 V4

这也是为什么很多人会觉得它“突然很强”，但工程上看其实是一条非常典型的长期主义路线。

1. 先补最少背景：Transformer 里最容易出瓶颈的地方在哪

要理解 DeepSeek 在干什么，先得知道大模型最基本的工作流。

对一个典型的 Decoder-only Transformer 来说，生成下一个 token，大致会经历这几步：

文本先变成向量，也就是Embedding（把文本变成向量表示）
经过MHA（Multi-Head Attention，多头注意力），让每个 token 看见上下文
再经过FFN（Feed-Forward Network，前馈神经网络），做更强的非线性变换
这套处理流程会重复很多层，最后模型会在整个词表里给候选词打分，选出最可能的下一个 token

如果只从工程瓶颈看，Transformer 里最值得盯住的地方通常有四个：

组件	主要作用	常见瓶颈
Attention（注意力机制）	建模上下文关系	长上下文时计算量大，KV Cache 很占显存
FFN（前馈神经网络）	提供主要参数容量和非线性表达	参数特别多，显存和计算都贵
残差连接（把输入也一起带到下一层，避免信息越传越丢）	让深层网络更好训练	规模更大时，训练稳定性会变差
训练范式	决定模型学到什么能力	推理能力不一定能靠传统 SFT（监督微调）解决

DeepSeek 后面的很多创新，基本都能映射到这张表里。

你甚至可以把整条路线粗暴理解成：

V1: 先研究“怎么训才划算” V2: 解决 FFN 和 Attention 太贵的问题 V3: 把这些优化真正堆成超大模型 R1: 解决“模型会不会推理” 后续: 解决“训得稳不稳”“上下文能不能更长” V4: 把前面积木拼起来

2. V1：DeepSeek 为什么先研究 Scaling Law，而不是先堆模型

很多团队一上来做大模型，会先想两件事：

模型能不能更大
数据能不能更多

DeepSeek 这条路线的起点不太一样。团队最开始没有急着直接改 Transformer 结构，也没有先冲一个更大的模型出来，而是先去重新研究Scaling Law（规模扩展规律）。

2.1 Scaling Law 是什么

你可以把 Scaling Law 理解成一句非常朴素的话：

模型变大、数据变多、算力增加，性能通常会继续提升，但提升幅度和训练配置之间有规律。

问题在于，很多早期结论更像“大方向正确”，但对工程实践还不够。

因为真实训练时你不只关心：

参数量多大
数据量多少

你还得关心：

batch size 怎么设
学习率怎么调
算力预算怎么配
数据和训练步数怎么平衡

2.2 DeepSeek 在 V1 阶段做了什么

V1 阶段的重点可以概括为：

重新验证和细化 Scaling Law
研究超参数、数据、算力之间的关系
顺手训出最早一代模型，也就是 DeepSeek LM / V1

2.3 这一步为什么重要

因为它解决的不是“模型够不够强”，而是“后面怎么继续做强”。

换句话说，V1 更像在回答：

如果我们后面要做更大的模型， 哪些钱值得花， 哪些配置会浪费算力， 怎样的训练组合更有效？

这一步看起来没有 V3、R1 那么炸裂，但它决定了后面很多路线不是瞎试，而是有理论支点的。

3. 通往 V2 的第一块拼图：DeepSeek MoE（Mixture of Experts，混合专家）先解决 FFN 太贵的问题

如果你把 Transformer 拆开看，FFN往往是参数大户。

这意味着一个现实问题：

模型一大，FFN 的权重就会非常占显存，也会让每一步计算变贵。

3.1 标准 Dense（稠密）模型的问题

在普通稠密模型里，每个 token 都要把这套大网络几乎完整跑一遍。

这有个直接后果：

总参数越大，每一步实际参与计算的参数也越多
显存压力和计算开销都会跟着上来

3.2 MoE 的基本想法

MoE 是Mixture of Experts，中文通常叫“混合专家”。

它的核心不是“把模型变小”，而是：

让模型的总参数可以很大，但每个 token 不必激活全部参数。

可以把它类比成公司分工：

Dense：所有需求都进同一个超级大部门
MoE：拆成很多专家小组，再用路由器决定这次叫哪几个组处理

3.3 DeepSeek MoE 做了什么改良

DeepSeek 的做法不是简单照搬传统 MoE，而是做了两点增强：

把专家切得更细，粒度更小
增加一类“共享专家”，让所有 token 都能走到这部分公共能力

你不用死记这个结构细节，但要记住它想解决的问题：

既想要 MoE 的低激活成本，又不想让专家分工过于极端。

3.4 为什么这一步重要

因为它瞄准的是 FFN 这块大头。

说得更直白一点：

总参数可以继续做大
但单次前向推理/训练时，真正激活的参数可以少很多

这正是后面 DeepSeek 在“便宜”和“快”上被反复讨论的关键基础之一。

4. 通往 V2 的第二块拼图：MLA（Multi-head Latent Attention，多头潜在注意力）继续解决 Attention 的显存问题

如果说 MoE 主要是在给FFN降本，那么MLA针对的就是 Attention（注意力机制）里的另一块显存大头：KV Cache（历史 K/V 向量缓存）。

4.1 为什么 KV Cache 会成为瓶颈

在多头注意力里，为了加速生成，模型通常会缓存过去 token 的K和V向量。

上下文越长，缓存就越大。

这就是为什么很多模型一旦上下文拉长，显存和吞吐都会迅速变差。

4.2 传统优化为什么还不够

过去已经有一些思路，比如：

MQA（Multi-Query Attention，多查询注意力）：多个头共享一组 KV
GQA（Grouped-Query Attention，分组查询注意力）：按组共享 KV

这些方法确实能省显存，但代价是共享得比较“粗”，可能损失表达能力。

4.3 MLA 的直觉

MLA 的核心思路可以概括为：

先把 KV 压缩成更紧凑的潜在表示，用的时候再还原出来。

它利用的是一个很重要的现实：

KV 信息里存在冗余，不一定需要原封不动全部存着。

4.4 为什么 MLA 很关键

因为它碰到的是大模型里另一个最贵的问题：

模型参数多只是一个维度
真正跑长上下文时，KV Cache 也会把系统拖得很重

所以当 DeepSeek 把MoE + MLA组合起来时，意义就出来了：

MoE 让 FFN 这边更省 MLA 让 Attention / KV Cache 这边更省 两边一起做，才有机会把更大的模型训出来

放在一起看，这两项技术共同构成了DeepSeek V2的关键支撑。

5. V3：前面积木终于拼成了一个真正有全球竞争力的大模型

聊到这里，你会发现 V1、MoE、MLA 都更像“底层准备”。

那什么时候 DeepSeek 开始真正让全球开源社区大规模注意到？

就是V3。

5.1 V3 的意义，不只是“参数大”

DeepSeek V3 有一个特别容易传播的数据点：

总参数量671B
MoE 每一步真正参与计算的参数约37B

这个数字为什么重要？

因为它非常直观地说明了 MoE 路线的价值：

你可以拥有一个总参数非常大的模型
但每一步真正动起来、真正参与计算的参数并没有那么夸张

5.2 V3 的真正含义

V3 真正值得看的，不是“671B” 这几个字本身，而是它证明了：

前面的理论和架构优化不是实验室玩具
它们真的可以落到超大模型训练上
而且训练过程还能保持稳定，性能不至于被优化手段拖垮

也就是说，V3 是一个很关键的分水岭：

从“我们有一些不错的技巧”，走到“我们真的把这些技巧堆成了一个一线模型”。

6. R1：DeepSeek 的下一步，不是继续省钱，而是直接补推理能力

很多人理解 DeepSeek，只看到“便宜”和“开源”。

但真正把它推到更高关注度的，是R1这条线。

6.1 为什么 R1 很关键

到了 V3 阶段，模型的基础能力和训练效率已经很强了，但还有一个更难的问题：

模型会不会推理？

这里的“推理”不是简单续写几句话，而是：

会不会分步骤思考
会不会在长问题里做中间判断
会不会在发现前面错了之后修正自己

6.2 传统做法是什么

一种常见思路是SFT（Supervised Fine-Tuning，监督微调）：

先给模型看很多“正确推理示范”
再让它去模仿这些步骤

这当然有效，但它有一个隐含假设：

推理能力主要来自“老师先把步骤写给你看”。

6.3 DeepSeek R1 的激进点

DeepSeek 在这一步做了一个更激进的选择：

不先依赖传统 SFT 讲标准答案
而是直接用强化学习，让模型自己探索推理过程
结果对了就奖励，结果错了就惩罚

这件事的震撼点在于：

它把“推理能力”从一种人工灌输的流程，变成了一种可能通过优化目标自然涌现出来的能力。

6.4 为什么大家会反复提到 aha moment

训练到一定阶段，模型会出现一种很像“中途反思”的现象：

先给出一个方向
再发现前面不对
然后主动改写结论

这类现象常被描述为aha moment，也就是一种“突然反应过来、开始自我修正”的时刻。

无论你是否把这个词看得很神秘，它至少说明了一件事：

模型开始不只是顺着文本往下补，而是在优化过程中学会了更像“推理轨迹”的行为。

6.5 R1 为什么会引爆关注

因为它让外界看到，DeepSeek 不只是在做架构省钱题，也在挑战一个更核心的问题：

推理能力到底该怎么训出来？

这也是为什么很多人会觉得，R1 的影响力甚至超过前面一串架构优化的总和。

7. MHC（带流形约束的超连接）：当模型越来越大，光能训还不够，还要训得稳

模型一旦继续做大，另一个问题会越来越突出：训练稳定性。

这时，问题不再是“有没有更强结构”，而是：

结构更强之后，数值会不会失控？

7.1 传统残差连接为什么不一定够

标准残差连接很简单：

输出 = 输入 + 子层输出

它的优点是稳、简单、好训。

但缺点也明显：

连接方式很固定
能保留的信息形式有限

7.2 更激进的连接方式，为什么又容易炸

可以把 HC 超连接理解成一种更激进的残差路径设计，本质是让残差路径有更强的可学习能力。

但这类方法如果对可学习矩阵不加约束，就可能出现一个问题：

矩阵连乘后数值越来越大，最后把训练推向不稳定，甚至梯度爆炸。

7.3 MHC 在做什么

DeepSeek 的改法，可以粗暴理解成一句话：

不是不要更强的连接方式，而是给它加上约束，让它在训练中别失控。

这里的关键约束来自流形约束，因此这套方法被称为MHC。

7.4 这一步的价值

它的价值不在于“读起来很酷”，而在于特别工程化：

模型更大
结构更复杂
训练更深

那么稳定性就不是锦上添花，而是能不能把实验做完、能不能把能力堆上去的前提。

8. 长上下文优化：DSA、CSA、HCA 在补 DeepSeek 的下一块短板

当模型基础能力、推理能力、训练稳定性都越来越强之后，下一个现实问题就会冒出来：

上下文一长，注意力成本还是太高。

8.1 传统滑动窗口为什么不够优雅

一个常见思路是滑动窗口：

只看最近一段 token
更远的上下文直接忽略

它当然省算力，但很粗暴。

因为很多真正重要的信息，恰恰可能在更远的位置。

8.2 DeepSeek 这几种方案分别在干什么

可以把它们粗暴翻译成三类思路：

方案	直觉理解	它想解决什么
DSA（动态选择相关历史信息）	动态挑重点历史 token	别死守固定窗口
CSA（压缩历史信息表示）	把远处历史压缩成更紧凑表示	别让所有历史都原样参与计算
HCA（长短距离分层处理）	近处保细节，远处做压缩	在效果和成本之间做更精细折中

你会发现，这三种方案和前面的 MLA 其实气质一致：

不是简单砍掉信息，而是更聪明地保留重要信息。

8.3 它们和 V4 的关系

放到版本节奏里看：

DSA被放入V3.2
CSA和HCA被放入最新的V4

这说明到了 V4，DeepSeek 优化的重点已经不是单一模块，而是在继续补一整条大模型系统链路。

9. 回头看 V4：它并不是一个“单点创新”，而是前面所有积累的总和

如果你看到这里，再回头看V4，就不太会把它理解成“某一篇新论文突然带来的跨越”。

更合理的理解应该是：

V1 -> 先把训练规律摸清 MoE -> 先让 FFN 这块别那么贵 MLA -> 再让 Attention / KV Cache 更省 V3 -> 把这些优化真正堆成一线模型 R1 -> 再补推理能力 MHC -> 再补大规模训练稳定性 V3.2/V4 -> 再补长上下文效率

所以 V4 更像一个“总装版本”。

它继承的不是单个点状突破，而是一整套连续的工程判断：

哪些地方最贵
哪些地方最不稳
哪些能力最值得后补
哪些优化必须先打地基再往上堆

这也是本文最想传达的主结论：

DeepSeek 的厉害，不只是某个版本突然强，而是它在几代演进里一直围绕同一条主线做积累。

10. 把整条路线压缩成一张图

如果你想用一张图记住全文，可以记这个版本：

+-------------------+----------------------------------------------+ | 阶段 | 核心任务 | +-------------------+----------------------------------------------+ | V1 | 重新研究 Scaling Law，补训练规律地基 | | DeepSeek MoE | 降低 FFN 的激活成本，缓解显存和计算压力 | | MLA / V2 | 压缩 KV 表示，降低 Attention 显存压力 | | V3 | 把前面技术真正堆成超大模型并稳定落地 | | R1 | 用强化学习直接训练推理能力 | | MHC | 提升更复杂连接结构下的大规模训练稳定性 | | DSA / CSA / HCA | 优化长上下文注意力计算 | | V4 | 汇总前面积累，形成更完整的大模型能力体系 | +-------------------+----------------------------------------------+