当前位置: 首页 > news >正文

【2026收藏版】图解DeepSeek V4:详细计算流程解析(小白程序员入门必备)

2026年大模型技术持续迭代,DeepSeek-V4系列作为长上下文高效推理的标杆模型,依然是小白入门、程序员深耕的重点学习对象。本文基于2026年最新适配版本,以图解形式拆解DeepSeek-V4-Pro的核心计算流程,简化复杂概念,补充入门小贴士,全程无冗余,适合收藏备用,助力快速掌握大模型架构设计精髓。

DeepSeek-V4系列包含两种核心模型:DeepSeek-V4-Flash(284B参数,13B激活)与DeepSeek-V4-Pro(1.6T参数,49B激活),两者均原生支持1M超长上下文,核心设计围绕“长上下文推理效率”展开架构优化。结合2026年最新技术适配要点,V4系列的关键升级集中在CSA/HCA混合注意力机制与mHC连接机制,核心目标是在不损失模型能力的前提下,大幅降低长序列场景下的计算开销与KV cache存储压力,这也是2026年大模型轻量化、高效化的核心趋势。

本文将以应用更广泛的DeepSeek-V4-Pro架构为例,用图解+通俗解析的方式,拆解每一个模块的计算细节,小白可快速理解核心逻辑,程序员可直接对照细节开展学习与实践。

1、 整体架构

DeepSeek V4 Pro模型整体结构如下所示,参数量达到1.6T,激活参数为49B。支持1M上下文推理,是纯语言大模型(LLM)。

高清图地址:https://github.com/CalvinXKY/InfraTech/tree/main/models/deepseek_v4

MoE模块有两种类型:

  • 一种是常规MoE;
  • 另一种是hash-MoE。

Attention模块有三种类型:

  • CSA(Compressed Sparse Attention):带index的压缩注意力,压缩比4:1。
  • HCA(Heavily Compressed Attention):重压缩注意力,压缩比128:1。
  • SWA(Sliding Window Attention):滑动窗口注意力。

模型一共有61层,前3层为hash MoE,搭配的Attention分别是HCA、HCA、CSA。 Attention与MoE之间的连接方式采用mHC。与residual连接方式相比,实现上多了前处理(hc_pre)和后处理(hc_post)。

从embedding到前三层计算

后58层为普通MoE。HCA与CSA交替使用,最后一层为SWA。具体层数配置可参考config[1]。 模型最后接了一层MTP(Multi-Token Prediction),用于预测下一个token。

从后58层计算到MTP

2、 CSA模块

CSA(Compressed Sparse Attention)是一种压缩注意力机制,通过压缩注意力矩阵来减少计算量。主要计算逻辑如下图所示。

相比传统注意力机制,CSA的KV通道有以下特点:

第一路KV通道由sliding window attention组成,计算特点是窗口滑动,每个token只与窗口内的token计算注意力。 因此,KV cache只会存储window_size大小的KV值,超出时会循环覆盖。 以Decoder阶段为例(后文对模型的介绍都以Decoder阶段为例,即sequence_length=1,batch_size=1),数据输入shape=[1,hidden_size],经过KV下采样后,KV cache的shape=[1,head_dim], 经由RoPE和量化计算后得到KV值,并存储到Window KV cache中。head_dim按rope_head_dim长度进行RoPE计算,剩余部分进行量化运算。

第二路KV通道是压缩通道,输入状态值经过Compressor模块后会更新压缩KV cache。压缩模块每次输出T个压缩KV值。 T个压缩KV token经过index模块筛选,保留<=topK个压缩token。该通道的shape变化为:

[1,hidden_size]->[T,head_dim]->[topK,head_dim]

最后,两路KV通道的KV值经过Concat模块拼接,得到最终KV值。

KV值长度<=window_size+topK,其中window_size是滑动窗口大小,topK是压缩通道输出的压缩token数量。Q通道计算与MLA的计算逻辑保持一致。

2.1 Token level Compressor (C4A)

Token level Compressor(C4A)是一种压缩token的模块,通过压缩token来减少计算量。

计算逻辑是:当KV cache中的值达到压缩数量时,就进行压缩计算。C4A设置为每收集到4个token压缩一次;当数量未达到4个时,就继续收集,不更新KV cache。

具体计算过程:

  1. 输入值进入C4A后,线性投影得到KV状态值和score状态值;

  2. 当状态值累积数量为4时,进行压缩计算;否则保存state状态后退出。

  3. 压缩计算是一次softmax以及乘法计算,最后在序列维度进行求和运算,尺寸变化为:

    [1,hidden_size]->[1,2*head_dim]->[8,head_dim]->[1,head_dim]。

尺寸变化采用了交替轮转方式,即在state压缩过程中,state存储数量为压缩比例的2倍,即2×4。 kv_state/score_state交替写入与数据拼接方式如下:

为了方便理解,可以将存储state(长度为8)分为前4个(pre state)和后4个(cur state)。

  • 每个状态值更新后都写入后4个位置,并滚动刷新。
  • 数量达到4个时,进行压缩计算。
  • 取值方式是将pre state的前半段与cur state的后半段拼接,得到8个state值,最后一维保持head_dim长度。

如果state用一个整体表示,即定义state尺寸为[2* ratio, 2 * head_dim], 拼接代码如下:

kv_state = torch.cat([kv_state[:bsz, :ratio, :d], kv_state[:bsz, ratio:, d:]], dim=1)

每次压缩后,cur state会覆盖pre state,同样采用滚动刷新:

kv_state[:bsz, :ratio] = kv_state[:bsz, ratio:] score_state[:bsz, :ratio] = score_state[:bsz, ratio:]

2.2 Index模块

Index模块负责从主通道压缩后的token中选择topK个token。与DSA的主要区别是,KV值计算也采用C4A压缩器。 压缩比例也为4:1。最后输出topK个压缩token的index。

2.3 其他细节

Attention计算还有几个值得注意的细节:

  1. 引入了sink值;
  2. 全部采用了MQA模式;
  3. MQA之后接了一个逆位置编码计算(de-rotation/inverse)。
  4. O运算有上、下采样两次运算。

3、 HCA模块

HCA模块是一种重压缩注意力机制,通过重压缩注意力矩阵减少计算量。与CSA的主要区别是,HCA的压缩通道没有Index模块,压缩计算方式也不同。

3.1 Token level Compressor(C128A)

压缩模块的压缩比例为128:1,state更新不采用交替轮转,而是直接拼接。累积数量达到128时,进行压缩计算。

4 、MoE模块

MoE模块在DSv3基础上进行了改进:

  • 路由有两种方式,一种是传统路由方式,另一种是hash路由方式。
  • 路由计算中的softmax被替换为softplus+sqrt。

hash路由方式的计算逻辑采用直接映射,即tid2eid:token id映射到expert id,也就是每个token对应固定expert。

结构上的主要特点大致如此,后续再详细分析代码和更深入的细节。

文中的架构图已上传到InfraTech库中[2],有需要自取:

https://github.com/CalvinXKY/InfraTech/tree/main/models/deepseek_v4

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

适用人群

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/710938/

相关文章:

  • 这个AI插件直接“接管编辑器”?Unity开发要变天了!
  • 微信投票系统实战,投票制作平台功能介绍,投票小程序源码结构
  • Kafka-King:解决企业级Kafka运维痛点的现代化桌面客户端
  • VS Code MCP权限体系设计:RBAC+策略即代码(Policy-as-Code)双模管控,附GRC兼容配置清单
  • 探索 MCP 协议:构建下一代 AI Agent 的标准化基石
  • 【军工级C代码可信保障体系】:从ANSI C89到MISRA C:2023,5步构建可审计、可追溯、可认证的形式化验证流水线
  • BERT双向注意力机制原理与实践指南
  • ReactAgent:基于GPT-4的React组件智能生成器,从需求到代码的自动化实践
  • 终极指南:如何在电脑上免费畅玩Switch游戏?Ryujinx模拟器完整教程
  • 2026工程基建与零基础跑通篇:2026年YOLO生态概览:从学术界顶会发文到工业界落地的全链路闭环
  • 构建个人技能库:从脚本到架构的工程化知识管理实践
  • Makefile条件判断的5个“坑”:从var=$(value)到ifdef的诡异行为全解析
  • macOS平台KOTOR模组管理:自动化工具与冲突解决全指南
  • ReAct Agent 进阶:多工具协作与动态决策
  • 深度解析 MCP (Model Context Protocol):重塑 AI Agent 的工具使用范式
  • YgoMaster离线游戏王平台:3步搭建你的专属决斗王国
  • 深入浅出 MCP:重新定义 AI Agent 的工具调用标准
  • MDX-M3-Viewer终极指南:在浏览器中完美渲染魔兽争霸与星际争霸模型
  • 面试助手CLI:聚合提效,打造本地化技术面试工作流
  • 基于Llama架构的OuteTTS开源TTS模型:从原理到部署实践
  • OmenSuperHub终极指南:解锁惠普游戏本隐藏性能的免费神器
  • DoL-Lyra:一键打造你的个性化游戏体验
  • 突破极限:AMD Ryzen硬件调试工具的5大实战应用
  • HTML5中SVG线性渐变LinearGradient的矢量实现
  • 大型语言模型编辑技术:CrispEdit算法解析与应用
  • 四博 AI 机械臂台灯智能音箱方案
  • 技术博客自动化工具链:从Markdown处理到多平台发布的工程实践
  • 专用蚊子苍蝇检测数据集分享(适用于目标检测任务含背景样本)
  • 成都风湿医院2026年第二期学术沙龙会成功举办
  • 2026/4/20