DeepSeek-V4:迈向高效的百万Token上下文智能
摘要
我们发布了DeepSeek-V4系列的预览版本,其中包含两款性能强劲的混合专家(Mixture-of-Experts, MoE)语言模型——参数规模达1.6万亿(激活参数490亿)的DeepSeek-V4-Pro,以及参数规模为2840亿(激活参数130亿)的DeepSeek-V4-Flash——两款模型均支持百万级上下文长度。DeepSeek-V4系列在架构设计与优化策略上实现了多项关键升级:(1)融合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力架构,提升长上下文处理效率;(2)流形约束超连接(ManifoldConstrained Hyper-Connections, mHC),对传统残差连接进行增强;(3)采用Muon优化器,实现更快的模型收敛与更稳定的训练过程。我们基于超32万亿样的多样化高质量语料对两款模型进行预训练,随后通过完整的后训练流程解锁并进一步强化其各项能力。作为DeepSeek-V4-Pro的极致推理模式,DeepSeek-V4-ProMax重新定义了开源模型的前沿水平,在核心任务上表现优于其前代模型。同时,DeepSeek-V4系列在长上下文场景中展现出极高的效率。在百万级上下文的测试场景下,DeepSeek-V4-Pro的单token推理浮点运算量仅为DeepSeek-V3.2的27%,键值(KV)缓存占用仅为其10%。这使得我们能够稳定支持百万级上下文长度,进而让长周期任务与更广泛的测试时扩展成为可能。

引言
推理模型的出现构建了测试时间缩放的全新范式,为大语言模型(LLMs)带来了显著的性能提升。然而,这种缩放范式从根本上受到基础注意力机制二次计算复杂度的限制(Vaswani 等人,2017),这为超长上下文和推理过程造成了难以承受的瓶颈。与此同时,长跨度场景与任务的兴起——从复杂的智能体工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键。尽管近期开源领域的相关努力推动了通用能力的提升,但在处理超长序列时这一核心架构效率问题仍是主要阻碍,它不仅限制了测试时间缩放带来的进一步性能提升,也阻碍了对长跨度场景与任务的进一步探索。
为突破超长上下文的效率瓶颈,我们研发了DeepSeek-V4系列模型,包括参数规模达1.6万亿(激活490亿)的DeepSeek-V4-Pro预览版,以及参数规模达2840亿(激活130亿)的DeepSeek-V4-Flash预览版。通过架构创新,DeepSeek-V4系列在处理超长序列的计算效率上实现了跨越式提升。这一突破实现了对百万级token上下文长度的高效支持,为下一代大语言模型开启了百万长度上下文的新时代。我们相信,高效处理超长序列的能力将解锁测试阶段规模扩展的新领域,为长周期任务的深度研究铺平道路,并为探索在线学习等未来范式奠定必要基础。
与DeepSeek-V3架构相比,DeepSeek-V4系列保留了DeepSeekMoE框架和多令牌预测(MTP)策略,同时在架构与优化方面引入了多项关键创新。为提升长上下文效率,我们设计了一种融合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的混合注意力机制。CSA沿序列维度压缩键值(KV)缓存,随后执行DeepSeek稀疏注意力(DSA)(DeepSeekAI, 2025);而HCA对键值缓存采用更激进的压缩方式,但保留密集注意力机制。为增强建模能力,我们融入了流形约束超连接(mHC),对传统残差连接进行了升级。此外,我们在DeepSeek-V4系列的训练中引入了Muon优化器,实现了更快的收敛速度并提升了训练稳定性。
为实现 DeepSeek-V4 系列模型的高效训练与推理,以及高效的开发流程,我们引入了多项基础设施优化措施。首先,我们为混合专家(MoE)模块设计并实现了单一融合内核,可实现计算、通信与内存访问的完全重叠。其次,我们采用领域特定语言(DSL)TileLang(Wang 等人,2026),在开发效率与运行时效率之间取得平衡。第三,我们提供高效的批处理不变性及确定性内核库,确保训练与推理过程中逐位结果的可复现性。第四,我们针对混合专家(MoE)专家权重和索引器的查询-键(QK)路径引入 FP4 量化感知训练,以降低内存占用与计算量。第五,在训练框架层面,我们为自动求导(autograd)框架扩展了张量级检查点功能,实现细粒度的重计算控制;同时,通过适配 Muon 优化器的混合 ZeRO 策略、借助重计算与融合内核实现高性价比的微混合精度(mHC)计算,以及采用两阶段上下文并行机制处理压缩注意力,全面提升训练效率。最后,在推理框架层面,我们设计了异构键值(KV)缓存结构,并结合磁盘存储策略,实现高效的共享前缀复用。
通过结合混合 CSA 与 HCA 技术,同时对计算和存储进行精准优化,DeepSeek-V4 系列相比 DeepSeek-V3.2,显著降低了推理 FLOPs(浮点运算次数),并大幅缩减了 KV 缓存大小,在长上下文场景中效果尤为突出。图 1 右侧展示了 DeepSeek-V3.2 与 DeepSeek-V4 系列的单 token 推理 FLOPs 估算值及累计 KV 缓存大小。在 100 万 token 上下文场景下,即便激活参数数量更多的 DeepSeek-V4-Pro,其单 token FLOPs(以等效 FP8 FLOPs 计量)也仅为 DeepSeek-V3.2 的 27%,KV 缓存大小仅为其 10%。此外,激活参数数量更少的 DeepSeek-V4-Flash 进一步提升了效率:在 100 万 token 上下文设置下,其单 token FLOPs 仅为 DeepSeek-V3.2 的 10%,KV 缓存大小仅为其 7%。同时,DeepSeek-V4 系列的路由专家参数采用 FP4 精度。目前,FP4×FP8 运算的峰值 FLOPs 与现有硬件上的 FP8×FP8 运算持平,但在未来硬件上,理论上可实现 1/3 的效率提升,这将进一步提升 DeepSeek-V4 系列的效率。
在预训练阶段,我们分别在 32 万亿个标记上训练了 DeepSeek-V4-Flash,在 33 万亿个标记上训练了 DeepSeek-V4-Pro。预训练完成后,这两个模型能够原生且高效地支持 100 万长度的上下文。在我们的内部评估中,DeepSeek-V4-Flash-Base 凭借更参数高效的设计,已在大多数基准测试中超越 DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base 进一步扩大了这一优势,在 DeepSeek 基础模型中树立了新的性能标杆,在推理、编码、长上下文和世界知识任务上均实现了全面领先。
DeepSeek-V4系列的训练后流程采用两阶段范式:先独立培育领域专属专家模型,再通过在线策略蒸馏实现模型的统一整合(Lu and Lab, 2025)。首先,针对数学、编程、智能体、指令遵循等各个目标领域,分别独立训练专属的专家模型。基础模型先在高质量的领域专属数据上进行有监督微调(SFT),以建立基础能力。随后,采用分组相对策略优化(GRPO)算法(DeepSeek-AI, 2025)应用强化学习(RL),结合针对特定成功标准定制的奖励模型,进一步优化模型以适配领域相关的行为表现。此阶段会产出一批多样化的专业专家模型,各模型均在对应领域表现出色。最后,为整合这些差异化能力,通过在线策略蒸馏训练出一个统一的大模型,该统一模型作为学生模型,学习以优化与教师模型之间的反向KL散度损失。
核心评估结果总结
-
知识能力:在对全球通用知识的评估中,DeepSeek-V4-Pro 的最大推理能力模式 DeepSeek-V4-Pro-Max 在 SimpleQA(OpenAI,2024d)和 Chinese-SimpleQA(He 等人,2024)基准测试中显著优于主流开源模型。在教育知识方面——通过 MMLU-Pro(Wang 等人,2024b)、HLE(Phan 等人,2025)和 GPQA(Rein 等人,2023)进行评估——DeepSeek-V4-Pro-Max 相较于其开源同类模型展现出微弱优势。尽管在这些基于知识的评估中仍落后于主流闭源模型 Gemini-3.1-Pro,但 DeepSeek-V4-Pro-Max 已大幅缩小了与该模型的差距。
-
推理:通过扩展推理token,DeepSeek-V4-Pro-Max在标准推理基准测试中展现出优于GPT-5.2和Gemini-3.0-Pro的性能。不过,其性能略逊于GPT-5.4和Gemini3.1-Pro,这表明其发展进度比当前最前沿的顶级模型落后约3至6个月。此外,DeepSeek-V4-Flash-Max取得了相当的性能达到 GPT-5.2 和 Gemini-3.0-Pro 水平,使其成为处理复杂推理任务的高性价比架构。
-
智能体:在公开基准测试中,DeepSeek-V4-Pro-Max 与 Kimi-K2.6、GLM-5.1 等主流开源模型表现相当,但略逊于前沿闭源模型。在我们的内部评估中,DeepSeek-V4-Pro-Max 的性能优于 Claude Sonnet 4.5,且接近 Opus 4.5 的水平。
-
长上下文:DeepSeek-V4-Pro-Max 凭借 100 万 token 的上下文窗口,在合成场景和实际用例中表现出色,在学术基准测试中甚至超越了 Gemini-3.1-Pro。
-
DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 对比:DeepSeek-V4-Flash-Max 因参数规模更小,在知识评估中表现出更低的性能。不过,当分配更大的思考预算时,它在推理任务上能取得相当的结果。在智能体评估中,尽管 DeepSeek-V4-Flash-Max 在多个基准测试上与 DeepSeek-V4-Pro-Max 表现相当,但在更复杂、高难度的任务上,它仍落后于参数规模更大的后者。
架构
总体而言,DeepSeek-V4 系列保留了 Transformer(Vaswani 等人,2017)架构和多令牌预测(MTP)模块(DeepSeek-AI,2024;Gloeckle 等人,2024),同时对 DeepSeek-V3 进行了多项关键升级:
(1)首先,我们引入了流形约束超连接(mHC)(Xie 等人,2026)来强化传统的残差连接;
(2) 其次,我们设计了一种混合注意力架构,通过压缩稀疏注意力和重度压缩注意力大幅提升了长上下文效率。(3) 第三,我们采用 Muon(Jordan 等人,2024;Liu 等人,2025)作为优化器。对于混合专家(MoE)模块,我们仍采用 DeepSeekMoE(Dai 等人,2024)架构,仅对 DeepSeek-V3 做了少量调整。多令牌预测(MTP)(DeepSeek-AI,2024;Gloeckle 等人,2024;Li 等人,2024;Qi 等人,2020)配置与 DeepSeek-V3 保持一致。所有其他未明确说明的细节均遵循 DeepSeekV3(DeepSeek-AI,2024)中设定的配置。图 2 展示了 DeepSeek-V4 的整体架构,具体细节如下所述。

