当前位置：首页 > news >正文

Deepseek-V4 技术报告.19922100

news 2026/4/24 12:44:15

DeepSeek-V4：迈向高效的百万Token上下文智能

摘要

我们发布了DeepSeek-V4系列的预览版本，其中包含两款性能强劲的混合专家（Mixture-of-Experts, MoE）语言模型——参数规模达1.6万亿（激活参数490亿）的DeepSeek-V4-Pro，以及参数规模为2840亿（激活参数130亿）的DeepSeek-V4-Flash——两款模型均支持百万级上下文长度。DeepSeek-V4系列在架构设计与优化策略上实现了多项关键升级：（1）融合压缩稀疏注意力（Compressed Sparse Attention, CSA）与重度压缩注意力（Heavily Compressed Attention, HCA）的混合注意力架构，提升长上下文处理效率；（2）流形约束超连接（ManifoldConstrained Hyper-Connections, mHC），对传统残差连接进行增强；（3）采用Muon优化器，实现更快的模型收敛与更稳定的训练过程。我们基于超32万亿样的多样化高质量语料对两款模型进行预训练，随后通过完整的后训练流程解锁并进一步强化其各项能力。作为DeepSeek-V4-Pro的极致推理模式，DeepSeek-V4-ProMax重新定义了开源模型的前沿水平，在核心任务上表现优于其前代模型。同时，DeepSeek-V4系列在长上下文场景中展现出极高的效率。在百万级上下文的测试场景下，DeepSeek-V4-Pro的单token推理浮点运算量仅为DeepSeek-V3.2的27%，键值（KV）缓存占用仅为其10%。这使得我们能够稳定支持百万级上下文长度，进而让长周期任务与更广泛的测试时扩展成为可能。

引言

推理模型的出现构建了测试时间缩放的全新范式，为大语言模型（LLMs）带来了显著的性能提升。然而，这种缩放范式从根本上受到基础注意力机制二次计算复杂度的限制（Vaswani 等人，2017），这为超长上下文和推理过程造成了难以承受的瓶颈。与此同时，长跨度场景与任务的兴起——从复杂的智能体工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键。尽管近期开源领域的相关努力推动了通用能力的提升，但在处理超长序列时这一核心架构效率问题仍是主要阻碍，它不仅限制了测试时间缩放带来的进一步性能提升，也阻碍了对长跨度场景与任务的进一步探索。

为突破超长上下文的效率瓶颈，我们研发了DeepSeek-V4系列模型，包括参数规模达1.6万亿（激活490亿）的DeepSeek-V4-Pro预览版，以及参数规模达2840亿（激活130亿）的DeepSeek-V4-Flash预览版。通过架构创新，DeepSeek-V4系列在处理超长序列的计算效率上实现了跨越式提升。这一突破实现了对百万级token上下文长度的高效支持，为下一代大语言模型开启了百万长度上下文的新时代。我们相信，高效处理超长序列的能力将解锁测试阶段规模扩展的新领域，为长周期任务的深度研究铺平道路，并为探索在线学习等未来范式奠定必要基础。

与DeepSeek-V3架构相比，DeepSeek-V4系列保留了DeepSeekMoE框架和多令牌预测（MTP）策略，同时在架构与优化方面引入了多项关键创新。为提升长上下文效率，我们设计了一种融合压缩稀疏注意力（CSA）与重度压缩注意力（HCA）的混合注意力机制。CSA沿序列维度压缩键值（KV）缓存，随后执行DeepSeek稀疏注意力（DSA）（DeepSeekAI, 2025）；而HCA对键值缓存采用更激进的压缩方式，但保留密集注意力机制。为增强建模能力，我们融入了流形约束超连接（mHC），对传统残差连接进行了升级。此外，我们在DeepSeek-V4系列的训练中引入了Muon优化器，实现了更快的收敛速度并提升了训练稳定性。

为实现 DeepSeek-V4 系列模型的高效训练与推理，以及高效的开发流程，我们引入了多项基础设施优化措施。首先，我们为混合专家（MoE）模块设计并实现了单一融合内核，可实现计算、通信与内存访问的完全重叠。其次，我们采用领域特定语言（DSL）TileLang（Wang 等人，2026），在开发效率与运行时效率之间取得平衡。第三，我们提供高效的批处理不变性及确定性内核库，确保训练与推理过程中逐位结果的可复现性。第四，我们针对混合专家（MoE）专家权重和索引器的查询-键（QK）路径引入 FP4 量化感知训练，以降低内存占用与计算量。第五，在训练框架层面，我们为自动求导（autograd）框架扩展了张量级检查点功能，实现细粒度的重计算控制；同时，通过适配 Muon 优化器的混合 ZeRO 策略、借助重计算与融合内核实现高性价比的微混合精度（mHC）计算，以及采用两阶段上下文并行机制处理压缩注意力，全面提升训练效率。最后，在推理框架层面，我们设计了异构键值（KV）缓存结构，并结合磁盘存储策略，实现高效的共享前缀复用。

通过结合混合 CSA 与 HCA 技术，同时对计算和存储进行精准优化，DeepSeek-V4 系列相比 DeepSeek-V3.2，显著降低了推理 FLOPs（浮点运算次数），并大幅缩减了 KV 缓存大小，在长上下文场景中效果尤为突出。图 1 右侧展示了 DeepSeek-V3.2 与 DeepSeek-V4 系列的单 token 推理 FLOPs 估算值及累计 KV 缓存大小。在 100 万 token 上下文场景下，即便激活参数数量更多的 DeepSeek-V4-Pro，其单 token FLOPs（以等效 FP8 FLOPs 计量）也仅为 DeepSeek-V3.2 的 27%，KV 缓存大小仅为其 10%。此外，激活参数数量更少的 DeepSeek-V4-Flash 进一步提升了效率：在 100 万 token 上下文设置下，其单 token FLOPs 仅为 DeepSeek-V3.2 的 10%，KV 缓存大小仅为其 7%。同时，DeepSeek-V4 系列的路由专家参数采用 FP4 精度。目前，FP4×FP8 运算的峰值 FLOPs 与现有硬件上的 FP8×FP8 运算持平，但在未来硬件上，理论上可实现 1/3 的效率提升，这将进一步提升 DeepSeek-V4 系列的效率。

在预训练阶段，我们分别在 32 万亿个标记上训练了 DeepSeek-V4-Flash，在 33 万亿个标记上训练了 DeepSeek-V4-Pro。预训练完成后，这两个模型能够原生且高效地支持 100 万长度的上下文。在我们的内部评估中，DeepSeek-V4-Flash-Base 凭借更参数高效的设计，已在大多数基准测试中超越 DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base 进一步扩大了这一优势，在 DeepSeek 基础模型中树立了新的性能标杆，在推理、编码、长上下文和世界知识任务上均实现了全面领先。

DeepSeek-V4系列的训练后流程采用两阶段范式：先独立培育领域专属专家模型，再通过在线策略蒸馏实现模型的统一整合（Lu and Lab, 2025）。首先，针对数学、编程、智能体、指令遵循等各个目标领域，分别独立训练专属的专家模型。基础模型先在高质量的领域专属数据上进行有监督微调（SFT），以建立基础能力。随后，采用分组相对策略优化（GRPO）算法（DeepSeek-AI, 2025）应用强化学习（RL），结合针对特定成功标准定制的奖励模型，进一步优化模型以适配领域相关的行为表现。此阶段会产出一批多样化的专业专家模型，各模型均在对应领域表现出色。最后，为整合这些差异化能力，通过在线策略蒸馏训练出一个统一的大模型，该统一模型作为学生模型，学习以优化与教师模型之间的反向KL散度损失。

核心评估结果总结

知识能力：在对全球通用知识的评估中，DeepSeek-V4-Pro 的最大推理能力模式 DeepSeek-V4-Pro-Max 在 SimpleQA（OpenAI，2024d）和 Chinese-SimpleQA（He 等人，2024）基准测试中显著优于主流开源模型。在教育知识方面——通过 MMLU-Pro（Wang 等人，2024b）、HLE（Phan 等人，2025）和 GPQA（Rein 等人，2023）进行评估——DeepSeek-V4-Pro-Max 相较于其开源同类模型展现出微弱优势。尽管在这些基于知识的评估中仍落后于主流闭源模型 Gemini-3.1-Pro，但 DeepSeek-V4-Pro-Max 已大幅缩小了与该模型的差距。
推理：通过扩展推理token，DeepSeek-V4-Pro-Max在标准推理基准测试中展现出优于GPT-5.2和Gemini-3.0-Pro的性能。不过，其性能略逊于GPT-5.4和Gemini3.1-Pro，这表明其发展进度比当前最前沿的顶级模型落后约3至6个月。此外，DeepSeek-V4-Flash-Max取得了相当的性能达到 GPT-5.2 和 Gemini-3.0-Pro 水平，使其成为处理复杂推理任务的高性价比架构。
智能体：在公开基准测试中，DeepSeek-V4-Pro-Max 与 Kimi-K2.6、GLM-5.1 等主流开源模型表现相当，但略逊于前沿闭源模型。在我们的内部评估中，DeepSeek-V4-Pro-Max 的性能优于 Claude Sonnet 4.5，且接近 Opus 4.5 的水平。
长上下文：DeepSeek-V4-Pro-Max 凭借 100 万 token 的上下文窗口，在合成场景和实际用例中表现出色，在学术基准测试中甚至超越了 Gemini-3.1-Pro。
DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 对比：DeepSeek-V4-Flash-Max 因参数规模更小，在知识评估中表现出更低的性能。不过，当分配更大的思考预算时，它在推理任务上能取得相当的结果。在智能体评估中，尽管 DeepSeek-V4-Flash-Max 在多个基准测试上与 DeepSeek-V4-Pro-Max 表现相当，但在更复杂、高难度的任务上，它仍落后于参数规模更大的后者。

架构

总体而言，DeepSeek-V4 系列保留了 Transformer（Vaswani 等人，2017）架构和多令牌预测（MTP）模块（DeepSeek-AI，2024；Gloeckle 等人，2024），同时对 DeepSeek-V3 进行了多项关键升级：

（1）首先，我们引入了流形约束超连接（mHC）（Xie 等人，2026）来强化传统的残差连接；

(2) 其次，我们设计了一种混合注意力架构，通过压缩稀疏注意力和重度压缩注意力大幅提升了长上下文效率。(3) 第三，我们采用 Muon（Jordan 等人，2024；Liu 等人，2025）作为优化器。对于混合专家（MoE）模块，我们仍采用 DeepSeekMoE（Dai 等人，2024）架构，仅对 DeepSeek-V3 做了少量调整。多令牌预测（MTP）（DeepSeek-AI，2024；Gloeckle 等人，2024；Li 等人，2024；Qi 等人，2020）配置与 DeepSeek-V3 保持一致。所有其他未明确说明的细节均遵循 DeepSeekV3（DeepSeek-AI，2024）中设定的配置。图 2 展示了 DeepSeek-V4 的整体架构，具体细节如下所述。