当前位置: 首页 > news >正文

DeepSeek V1 到 V4 完整技术路线:每一代到底解决了什么问题?

DeepSeek V1 到 V4 完整技术路线:每一代到底解决了什么问题?

这篇文章的目标,是用工程视角把 DeepSeek 的技术路线讲明白,而不是把一堆论文名和版本号按时间顺序重新复述一遍。

很多人第一次看到 DeepSeek,会有一种错觉:

怎么突然就冒出来一个又强、又快、又便宜、还开源的大模型?

如果只看最终结果,确实容易觉得它像“突然爆发”。但如果把路线拉长,你会发现 DeepSeek 的演进逻辑其实很稳定:

  • V1先补理论地基,重新研究 Scaling Law(规模扩展规律)
  • 然后围绕两个最现实的问题下手:显存不够计算太贵
  • 接着把这些方法真正落到超大模型训练里,做出V3
  • 再往上补推理能力、训练稳定性、长上下文能力,最后汇总到V4

一句话概括:

DeepSeek V4 不是横空出世,而是从 V1 开始,沿着“理论验证 -> 显存优化 -> 工程落地 -> 推理突破 -> 稳定性增强 -> 长上下文优化”一路迭代出来的。

先看整条路线的总览图:

+------------------+----------------------+------------------------------+ | 阶段 | 关键技术/版本 | 主要解决的问题 | +------------------+----------------------+------------------------------+ | 第一阶段 | V1 | 重新研究 Scaling Law(规模扩展规律),补地基 | | 成本优化一 | DeepSeek MoE(混合专家) | FFN(前馈神经网络)太贵,显存和计算压力大 | | 成本优化二 | MLA / V2 | KV Cache(历史 K/V 向量缓存)太大,注意力太贵 | | 工程落地 | V3 | 把优化真正堆成超大模型 | | 推理能力突破 | R1 | 不只会续写,还要学会推理 | | 稳定性增强 | MHC(带流形约束的超连接) | 模型更大后训练容易不稳定 | | 长上下文优化 | DSA / CSA / HCA(长上下文三种优化方案) | 上下文变长后注意力成本过高 | | 总装版本 | V4 | 汇总前面积累,形成完整体系 | +------------------+----------------------+------------------------------+

0. 先看结论:DeepSeek 这条路线到底特别在哪

如果只保留最重要的三点,我会这样总结:

  • 它不是先赌“更大的模型”,而是先研究“怎样把模型做大这件事变得更可控”
  • 它的很多创新都围绕一个共同目标:减少显存占用、降低单位计算成本、保持模型效果
  • 它不是只做架构小修小补,后面还把训练范式、残差连接、长上下文处理都补上了

所以 DeepSeek 的路线,不太像“做一个更大的 GPT”,而更像:

先把规律摸清 -> 再把最贵的地方做便宜 -> 再把大模型真正稳定训出来 -> 再补推理和长上下文 -> 最终把前面的积累收束成 V4

这也是为什么很多人会觉得它“突然很强”,但工程上看其实是一条非常典型的长期主义路线。


1. 先补最少背景:Transformer 里最容易出瓶颈的地方在哪

要理解 DeepSeek 在干什么,先得知道大模型最基本的工作流。

对一个典型的 Decoder-only Transformer 来说,生成下一个 token,大致会经历这几步:

  1. 文本先变成向量,也就是Embedding(把文本变成向量表示)
  2. 经过MHA(Multi-Head Attention,多头注意力),让每个 token 看见上下文
  3. 再经过FFN(Feed-Forward Network,前馈神经网络),做更强的非线性变换
  4. 这套处理流程会重复很多层,最后模型会在整个词表里给候选词打分,选出最可能的下一个 token

如果只从工程瓶颈看,Transformer 里最值得盯住的地方通常有四个:

组件主要作用常见瓶颈
Attention(注意力机制)建模上下文关系长上下文时计算量大,KV Cache 很占显存
FFN(前馈神经网络)提供主要参数容量和非线性表达参数特别多,显存和计算都贵
残差连接(把输入也一起带到下一层,避免信息越传越丢)让深层网络更好训练规模更大时,训练稳定性会变差
训练范式决定模型学到什么能力推理能力不一定能靠传统 SFT(监督微调)解决

DeepSeek 后面的很多创新,基本都能映射到这张表里。

你甚至可以把整条路线粗暴理解成:

V1: 先研究“怎么训才划算” V2: 解决 FFN 和 Attention 太贵的问题 V3: 把这些优化真正堆成超大模型 R1: 解决“模型会不会推理” 后续: 解决“训得稳不稳”“上下文能不能更长” V4: 把前面积木拼起来

2. V1:DeepSeek 为什么先研究 Scaling Law,而不是先堆模型

很多团队一上来做大模型,会先想两件事:

  • 模型能不能更大
  • 数据能不能更多

DeepSeek 这条路线的起点不太一样。团队最开始没有急着直接改 Transformer 结构,也没有先冲一个更大的模型出来,而是先去重新研究Scaling Law(规模扩展规律)。

2.1 Scaling Law 是什么

你可以把 Scaling Law 理解成一句非常朴素的话:

模型变大、数据变多、算力增加,性能通常会继续提升,但提升幅度和训练配置之间有规律。

问题在于,很多早期结论更像“大方向正确”,但对工程实践还不够。

因为真实训练时你不只关心:

  • 参数量多大
  • 数据量多少

你还得关心:

  • batch size 怎么设
  • 学习率怎么调
  • 算力预算怎么配
  • 数据和训练步数怎么平衡

2.2 DeepSeek 在 V1 阶段做了什么

V1 阶段的重点可以概括为:

  • 重新验证和细化 Scaling Law
  • 研究超参数、数据、算力之间的关系
  • 顺手训出最早一代模型,也就是 DeepSeek LM / V1

2.3 这一步为什么重要

因为它解决的不是“模型够不够强”,而是“后面怎么继续做强”。

换句话说,V1 更像在回答:

如果我们后面要做更大的模型, 哪些钱值得花, 哪些配置会浪费算力, 怎样的训练组合更有效?

这一步看起来没有 V3、R1 那么炸裂,但它决定了后面很多路线不是瞎试,而是有理论支点的。


3. 通往 V2 的第一块拼图:DeepSeek MoE(Mixture of Experts,混合专家)先解决 FFN 太贵的问题

如果你把 Transformer 拆开看,FFN往往是参数大户。

这意味着一个现实问题:

模型一大,FFN 的权重就会非常占显存,也会让每一步计算变贵。

3.1 标准 Dense(稠密)模型的问题

在普通稠密模型里,每个 token 都要把这套大网络几乎完整跑一遍。

这有个直接后果:

  • 总参数越大,每一步实际参与计算的参数也越多
  • 显存压力和计算开销都会跟着上来

3.2 MoE 的基本想法

MoE 是Mixture of Experts,中文通常叫“混合专家”。

它的核心不是“把模型变小”,而是:

让模型的总参数可以很大,但每个 token 不必激活全部参数。

可以把它类比成公司分工:

  • Dense:所有需求都进同一个超级大部门
  • MoE:拆成很多专家小组,再用路由器决定这次叫哪几个组处理

3.3 DeepSeek MoE 做了什么改良

DeepSeek 的做法不是简单照搬传统 MoE,而是做了两点增强:

  • 把专家切得更细,粒度更小
  • 增加一类“共享专家”,让所有 token 都能走到这部分公共能力

你不用死记这个结构细节,但要记住它想解决的问题:

既想要 MoE 的低激活成本,又不想让专家分工过于极端。

3.4 为什么这一步重要

因为它瞄准的是 FFN 这块大头。

说得更直白一点:

  • 总参数可以继续做大
  • 但单次前向推理/训练时,真正激活的参数可以少很多

这正是后面 DeepSeek 在“便宜”和“快”上被反复讨论的关键基础之一。


4. 通往 V2 的第二块拼图:MLA(Multi-head Latent Attention,多头潜在注意力)继续解决 Attention 的显存问题

如果说 MoE 主要是在给FFN降本,那么MLA针对的就是 Attention(注意力机制)里的另一块显存大头:KV Cache(历史 K/V 向量缓存)。

4.1 为什么 KV Cache 会成为瓶颈

在多头注意力里,为了加速生成,模型通常会缓存过去 token 的KV向量。

上下文越长,缓存就越大。

这就是为什么很多模型一旦上下文拉长,显存和吞吐都会迅速变差。

4.2 传统优化为什么还不够

过去已经有一些思路,比如:

  • MQA(Multi-Query Attention,多查询注意力):多个头共享一组 KV
  • GQA(Grouped-Query Attention,分组查询注意力):按组共享 KV

这些方法确实能省显存,但代价是共享得比较“粗”,可能损失表达能力。

4.3 MLA 的直觉

MLA 的核心思路可以概括为:

先把 KV 压缩成更紧凑的潜在表示,用的时候再还原出来。

它利用的是一个很重要的现实:

KV 信息里存在冗余,不一定需要原封不动全部存着。

4.4 为什么 MLA 很关键

因为它碰到的是大模型里另一个最贵的问题:

  • 模型参数多只是一个维度
  • 真正跑长上下文时,KV Cache 也会把系统拖得很重

所以当 DeepSeek 把MoE + MLA组合起来时,意义就出来了:

MoE 让 FFN 这边更省 MLA 让 Attention / KV Cache 这边更省 两边一起做,才有机会把更大的模型训出来

放在一起看,这两项技术共同构成了DeepSeek V2的关键支撑。


5. V3:前面积木终于拼成了一个真正有全球竞争力的大模型

聊到这里,你会发现 V1、MoE、MLA 都更像“底层准备”。

那什么时候 DeepSeek 开始真正让全球开源社区大规模注意到?

就是V3

5.1 V3 的意义,不只是“参数大”

DeepSeek V3 有一个特别容易传播的数据点:

  • 总参数量671B
  • MoE 每一步真正参与计算的参数约37B

这个数字为什么重要?

因为它非常直观地说明了 MoE 路线的价值:

  • 你可以拥有一个总参数非常大的模型
  • 但每一步真正动起来、真正参与计算的参数并没有那么夸张

5.2 V3 的真正含义

V3 真正值得看的,不是“671B” 这几个字本身,而是它证明了:

  • 前面的理论和架构优化不是实验室玩具
  • 它们真的可以落到超大模型训练上
  • 而且训练过程还能保持稳定,性能不至于被优化手段拖垮

也就是说,V3 是一个很关键的分水岭:

从“我们有一些不错的技巧”,走到“我们真的把这些技巧堆成了一个一线模型”。


6. R1:DeepSeek 的下一步,不是继续省钱,而是直接补推理能力

很多人理解 DeepSeek,只看到“便宜”和“开源”。

但真正把它推到更高关注度的,是R1这条线。

6.1 为什么 R1 很关键

到了 V3 阶段,模型的基础能力和训练效率已经很强了,但还有一个更难的问题:

模型会不会推理?

这里的“推理”不是简单续写几句话,而是:

  • 会不会分步骤思考
  • 会不会在长问题里做中间判断
  • 会不会在发现前面错了之后修正自己

6.2 传统做法是什么

一种常见思路是SFT(Supervised Fine-Tuning,监督微调):

  • 先给模型看很多“正确推理示范”
  • 再让它去模仿这些步骤

这当然有效,但它有一个隐含假设:

推理能力主要来自“老师先把步骤写给你看”。

6.3 DeepSeek R1 的激进点

DeepSeek 在这一步做了一个更激进的选择:

  • 不先依赖传统 SFT 讲标准答案
  • 而是直接用强化学习,让模型自己探索推理过程
  • 结果对了就奖励,结果错了就惩罚

这件事的震撼点在于:

它把“推理能力”从一种人工灌输的流程,变成了一种可能通过优化目标自然涌现出来的能力。

6.4 为什么大家会反复提到 aha moment

训练到一定阶段,模型会出现一种很像“中途反思”的现象:

  • 先给出一个方向
  • 再发现前面不对
  • 然后主动改写结论

这类现象常被描述为aha moment,也就是一种“突然反应过来、开始自我修正”的时刻。

无论你是否把这个词看得很神秘,它至少说明了一件事:

模型开始不只是顺着文本往下补,而是在优化过程中学会了更像“推理轨迹”的行为。

6.5 R1 为什么会引爆关注

因为它让外界看到,DeepSeek 不只是在做架构省钱题,也在挑战一个更核心的问题:

推理能力到底该怎么训出来?

这也是为什么很多人会觉得,R1 的影响力甚至超过前面一串架构优化的总和。


7. MHC(带流形约束的超连接):当模型越来越大,光能训还不够,还要训得稳

模型一旦继续做大,另一个问题会越来越突出:训练稳定性

这时,问题不再是“有没有更强结构”,而是:

结构更强之后,数值会不会失控?

7.1 传统残差连接为什么不一定够

标准残差连接很简单:

输出 = 输入 + 子层输出

它的优点是稳、简单、好训。

但缺点也明显:

  • 连接方式很固定
  • 能保留的信息形式有限

7.2 更激进的连接方式,为什么又容易炸

可以把 HC 超连接理解成一种更激进的残差路径设计,本质是让残差路径有更强的可学习能力。

但这类方法如果对可学习矩阵不加约束,就可能出现一个问题:

矩阵连乘后数值越来越大,最后把训练推向不稳定,甚至梯度爆炸。

7.3 MHC 在做什么

DeepSeek 的改法,可以粗暴理解成一句话:

不是不要更强的连接方式,而是给它加上约束,让它在训练中别失控。

这里的关键约束来自流形约束,因此这套方法被称为MHC

7.4 这一步的价值

它的价值不在于“读起来很酷”,而在于特别工程化:

  • 模型更大
  • 结构更复杂
  • 训练更深

那么稳定性就不是锦上添花,而是能不能把实验做完、能不能把能力堆上去的前提。


8. 长上下文优化:DSA、CSA、HCA 在补 DeepSeek 的下一块短板

当模型基础能力、推理能力、训练稳定性都越来越强之后,下一个现实问题就会冒出来:

上下文一长,注意力成本还是太高。

8.1 传统滑动窗口为什么不够优雅

一个常见思路是滑动窗口:

  • 只看最近一段 token
  • 更远的上下文直接忽略

它当然省算力,但很粗暴。

因为很多真正重要的信息,恰恰可能在更远的位置。

8.2 DeepSeek 这几种方案分别在干什么

可以把它们粗暴翻译成三类思路:

方案直觉理解它想解决什么
DSA(动态选择相关历史信息)动态挑重点历史 token别死守固定窗口
CSA(压缩历史信息表示)把远处历史压缩成更紧凑表示别让所有历史都原样参与计算
HCA(长短距离分层处理)近处保细节,远处做压缩在效果和成本之间做更精细折中

你会发现,这三种方案和前面的 MLA 其实气质一致:

不是简单砍掉信息,而是更聪明地保留重要信息。

8.3 它们和 V4 的关系

放到版本节奏里看:

  • DSA被放入V3.2
  • CSAHCA被放入最新的V4

这说明到了 V4,DeepSeek 优化的重点已经不是单一模块,而是在继续补一整条大模型系统链路。


9. 回头看 V4:它并不是一个“单点创新”,而是前面所有积累的总和

如果你看到这里,再回头看V4,就不太会把它理解成“某一篇新论文突然带来的跨越”。

更合理的理解应该是:

V1 -> 先把训练规律摸清 MoE -> 先让 FFN 这块别那么贵 MLA -> 再让 Attention / KV Cache 更省 V3 -> 把这些优化真正堆成一线模型 R1 -> 再补推理能力 MHC -> 再补大规模训练稳定性 V3.2/V4 -> 再补长上下文效率

所以 V4 更像一个“总装版本”。

它继承的不是单个点状突破,而是一整套连续的工程判断:

  • 哪些地方最贵
  • 哪些地方最不稳
  • 哪些能力最值得后补
  • 哪些优化必须先打地基再往上堆

这也是本文最想传达的主结论:

DeepSeek 的厉害,不只是某个版本突然强,而是它在几代演进里一直围绕同一条主线做积累。


10. 把整条路线压缩成一张图

如果你想用一张图记住全文,可以记这个版本:

+-------------------+----------------------------------------------+ | 阶段 | 核心任务 | +-------------------+----------------------------------------------+ | V1 | 重新研究 Scaling Law,补训练规律地基 | | DeepSeek MoE | 降低 FFN 的激活成本,缓解显存和计算压力 | | MLA / V2 | 压缩 KV 表示,降低 Attention 显存压力 | | V3 | 把前面技术真正堆成超大模型并稳定落地 | | R1 | 用强化学习直接训练推理能力 | | MHC | 提升更复杂连接结构下的大规模训练稳定性 | | DSA / CSA / HCA | 优化长上下文注意力计算 | | V4 | 汇总前面积累,形成更完整的大模型能力体系 | +-------------------+----------------------------------------------+

11. 这条路线对工程同学最值得学的,不是术语,而是方法

读完这条路线,最有价值的收获其实不一定是记住每个缩写。

更值得学的是它背后的方法感:

11.1 先找系统里的“大头成本”

DeepSeek 没有平均用力,而是先盯住几个最贵的位置:

  • FFN 太贵
  • KV Cache 太占显存
  • 大模型训练不够稳
  • 长上下文成本太高

这很像成熟工程团队做性能优化:

不是每个模块都抠 5%,而是先盯住真正吃资源的地方。

11.2 先打地基,再冲结果

V1 到 V3 的路线说明了一点:

很多最终看起来像“结果”的东西,前面其实是长期的地基投入。

如果没有前面对训练规律、MoE、MLA 的积累,后面的 V3 很难站住。

11.3 不把“能力问题”只理解成架构问题

R1 这一步特别值得注意。

因为它说明:

  • 有些能力,不一定靠改模型结构解决
  • 也可能靠训练目标、优化方式、奖励机制去解决

这是一种非常典型的系统视角。


12. 最后一句话:为什么 DeepSeek V4 值得看

因为它让很多人第一次清楚看到:

一个一线大模型,不一定非得靠“无上限烧钱”才能出来。

它也可以走另一条路:

  • 先把规律研究清楚
  • 再把最贵的模块做便宜
  • 再把系统做稳
  • 再把推理和长上下文补齐

从这个角度看,DeepSeek V4 最值得看的地方,不只是“它有多强”,而是:

它展示了一条更像工程团队会走出来的大模型演进路径。

如果你把这篇文章读完只记住一句话,我希望是这句:

V4 只是你来时路的总和。


附:读完你应该能回答的 6 个问题

  • DeepSeek V1 在做什么:重新研究和细化 Scaling Law,为后续训练路线打地基。
  • DeepSeek 为什么要做 MoE:因为 FFN 太贵,希望总参数能继续做大,但每一步真正参与计算的参数别那么夸张。
  • MLA 在解决什么:KV Cache 显存太大,希望压缩注意力中的历史表示。
  • V3 为什么重要:因为它证明前面的优化不是实验室技巧,而是真的能堆成一线大模型。
  • R1 为什么关键:因为它把焦点从“模型能不能更省”推到“模型会不会真正推理”。
  • V4 应该怎么理解:不是单点奇迹,而是前面几代技术积累的系统性收束。
http://www.jsqmd.com/news/730089/

相关文章:

  • taotoken 多模型聚合能力如何赋能智能客服场景开发
  • 从播客剪辑到游戏音效:用GoldWave 6.78搞定你的所有音频需求(附基础操作指南)
  • 协同自动驾驶中的V2V-GoT框架:技术原理与工程实践
  • CS3106 双节电池均衡芯片技术文档(完整版)
  • AArch64 SIMDFP寄存器存储指令详解与优化实践
  • 基于可逆残差网络与互信息最大化的化工泵故障诊断【附代码】
  • 2026合肥生殖中心擅长多囊医生推荐:安医不孕不育推荐医生,安医专治不孕不育医生,安医多囊专家,实力盘点! - 优质品牌商家
  • 网络运维效率翻倍:手把手教你用Docker Compose一键部署PHPIPAM 1.6
  • Visual Studio调试时遇到ntdll.dll的PDB文件缺失?别慌,这3个方法帮你搞定(附详细步骤)
  • 告别手动点开始!用SUMO的gui_only配置实现配置文件一打开就自动仿真
  • 第 3 章:Gradle 进阶工程能力
  • 为什么92%的PHP团队在LLM长连接上踩坑?Swoole协程池、FD复用、上下文隔离三大致命盲区全解析,
  • 零基础快速启用 OpenClaw,保姆级零代码部署教程
  • 为编程助手 Claude Code 配置 Taotoken 作为后端模型服务提供方
  • VoXtream2流式TTS架构与动态语速控制技术解析
  • ARM SVE2指令集SQSHL:饱和移位原理与应用
  • 【农业AI预测实战指南】:R语言构建高精度作物病害预警模型的7步黄金流程
  • 量子虚拟机资源分配:DynQ解决方案与质量加权社区检测
  • 2026四川水上游乐设备厂家技术评测:TOP5合规能力解析 - 优质品牌商家
  • AcuRange工业现场高精度FMCW毫米波雷达感知平台-毫米级到亚毫米级距离测量解决方案(工业精准定位、精准测距与精细检测)
  • 在Node.js后端服务中集成Taotoken实现稳定AI功能
  • 别再只会apt了!在统信UOS/麒麟KOS上,用dpkg命令搞定微信、WPS等.deb包的安装与管理
  • Linux 文件系统底层探秘:磁盘物理结构→inode→Ext 架构全链路
  • ARM SVE2浮点运算指令优化与AI加速实践
  • NVIDIA GH200 NVL2架构:统一内存管理助力AI性能飞跃
  • springboot+nodejs网上服装店铺系统 服装销售商城系统
  • 终极指南:三分钟掌握Dell G15开源散热控制神器tcc-g15
  • BEV感知避坑指南:基于LSS系列方法的工程实践与调参经验分享
  • 基于深度强化学习与自注意力自适应的风电机组偏航系统故障穿越【附代码】
  • 向量引擎接入 GPT Image 2、deepseek v4 和 GPT5.5:api key 别乱配,AI 真要从聊天变干活了