当前位置: 首页 > news >正文

Deepseek-V4 技术报告.19922100

DeepSeek-V4:迈向高效的百万Token上下文智能

摘要

我们发布了DeepSeek-V4系列的预览版本,其中包含两款性能强劲的混合专家(Mixture-of-Experts, MoE)语言模型——参数规模达1.6万亿(激活参数490亿)的DeepSeek-V4-Pro,以及参数规模为2840亿(激活参数130亿)的DeepSeek-V4-Flash——两款模型均支持百万级上下文长度。DeepSeek-V4系列在架构设计与优化策略上实现了多项关键升级:(1)融合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力架构,提升长上下文处理效率;(2)流形约束超连接(ManifoldConstrained Hyper-Connections, mHC),对传统残差连接进行增强;(3)采用Muon优化器,实现更快的模型收敛与更稳定的训练过程。我们基于超32万亿样的多样化高质量语料对两款模型进行预训练,随后通过完整的后训练流程解锁并进一步强化其各项能力。作为DeepSeek-V4-Pro的极致推理模式,DeepSeek-V4-ProMax重新定义了开源模型的前沿水平,在核心任务上表现优于其前代模型。同时,DeepSeek-V4系列在长上下文场景中展现出极高的效率。在百万级上下文的测试场景下,DeepSeek-V4-Pro的单token推理浮点运算量仅为DeepSeek-V3.2的27%,键值(KV)缓存占用仅为其10%。这使得我们能够稳定支持百万级上下文长度,进而让长周期任务与更广泛的测试时扩展成为可能。

img

引言

推理模型的出现构建了测试时间缩放的全新范式,为大语言模型(LLMs)带来了显著的性能提升。然而,这种缩放范式从根本上受到基础注意力机制二次计算复杂度的限制(Vaswani 等人,2017),这为超长上下文和推理过程造成了难以承受的瓶颈。与此同时,长跨度场景与任务的兴起——从复杂的智能体工作流到大规模跨文档分析——也使得对超长上下文的高效支持成为未来发展的关键。尽管近期开源领域的相关努力推动了通用能力的提升,但在处理超长序列时这一核心架构效率问题仍是主要阻碍,它不仅限制了测试时间缩放带来的进一步性能提升,也阻碍了对长跨度场景与任务的进一步探索。

为突破超长上下文的效率瓶颈,我们研发了DeepSeek-V4系列模型,包括参数规模达1.6万亿(激活490亿)的DeepSeek-V4-Pro预览版,以及参数规模达2840亿(激活130亿)的DeepSeek-V4-Flash预览版。通过架构创新,DeepSeek-V4系列在处理超长序列的计算效率上实现了跨越式提升。这一突破实现了对百万级token上下文长度的高效支持,为下一代大语言模型开启了百万长度上下文的新时代。我们相信,高效处理超长序列的能力将解锁测试阶段规模扩展的新领域,为长周期任务的深度研究铺平道路,并为探索在线学习等未来范式奠定必要基础。

与DeepSeek-V3架构相比,DeepSeek-V4系列保留了DeepSeekMoE框架和多令牌预测(MTP)策略,同时在架构与优化方面引入了多项关键创新。为提升长上下文效率,我们设计了一种融合压缩稀疏注意力(CSA)与重度压缩注意力(HCA)的混合注意力机制。CSA沿序列维度压缩键值(KV)缓存,随后执行DeepSeek稀疏注意力(DSA)(DeepSeekAI, 2025);而HCA对键值缓存采用更激进的压缩方式,但保留密集注意力机制。为增强建模能力,我们融入了流形约束超连接(mHC),对传统残差连接进行了升级。此外,我们在DeepSeek-V4系列的训练中引入了Muon优化器,实现了更快的收敛速度并提升了训练稳定性。

为实现 DeepSeek-V4 系列模型的高效训练与推理,以及高效的开发流程,我们引入了多项基础设施优化措施。首先,我们为混合专家(MoE)模块设计并实现了单一融合内核,可实现计算、通信与内存访问的完全重叠。其次,我们采用领域特定语言(DSL)TileLang(Wang 等人,2026),在开发效率与运行时效率之间取得平衡。第三,我们提供高效的批处理不变性及确定性内核库,确保训练与推理过程中逐位结果的可复现性。第四,我们针对混合专家(MoE)专家权重和索引器的查询-键(QK)路径引入 FP4 量化感知训练,以降低内存占用与计算量。第五,在训练框架层面,我们为自动求导(autograd)框架扩展了张量级检查点功能,实现细粒度的重计算控制;同时,通过适配 Muon 优化器的混合 ZeRO 策略、借助重计算与融合内核实现高性价比的微混合精度(mHC)计算,以及采用两阶段上下文并行机制处理压缩注意力,全面提升训练效率。最后,在推理框架层面,我们设计了异构键值(KV)缓存结构,并结合磁盘存储策略,实现高效的共享前缀复用。

通过结合混合 CSA 与 HCA 技术,同时对计算和存储进行精准优化,DeepSeek-V4 系列相比 DeepSeek-V3.2,显著降低了推理 FLOPs(浮点运算次数),并大幅缩减了 KV 缓存大小,在长上下文场景中效果尤为突出。图 1 右侧展示了 DeepSeek-V3.2 与 DeepSeek-V4 系列的单 token 推理 FLOPs 估算值及累计 KV 缓存大小。在 100 万 token 上下文场景下,即便激活参数数量更多的 DeepSeek-V4-Pro,其单 token FLOPs(以等效 FP8 FLOPs 计量)也仅为 DeepSeek-V3.2 的 27%,KV 缓存大小仅为其 10%。此外,激活参数数量更少的 DeepSeek-V4-Flash 进一步提升了效率:在 100 万 token 上下文设置下,其单 token FLOPs 仅为 DeepSeek-V3.2 的 10%,KV 缓存大小仅为其 7%。同时,DeepSeek-V4 系列的路由专家参数采用 FP4 精度。目前,FP4×FP8 运算的峰值 FLOPs 与现有硬件上的 FP8×FP8 运算持平,但在未来硬件上,理论上可实现 1/3 的效率提升,这将进一步提升 DeepSeek-V4 系列的效率。

在预训练阶段,我们分别在 32 万亿个标记上训练了 DeepSeek-V4-Flash,在 33 万亿个标记上训练了 DeepSeek-V4-Pro。预训练完成后,这两个模型能够原生且高效地支持 100 万长度的上下文。在我们的内部评估中,DeepSeek-V4-Flash-Base 凭借更参数高效的设计,已在大多数基准测试中超越 DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base 进一步扩大了这一优势,在 DeepSeek 基础模型中树立了新的性能标杆,在推理、编码、长上下文和世界知识任务上均实现了全面领先。

DeepSeek-V4系列的训练后流程采用两阶段范式:先独立培育领域专属专家模型,再通过在线策略蒸馏实现模型的统一整合(Lu and Lab, 2025)。首先,针对数学、编程、智能体、指令遵循等各个目标领域,分别独立训练专属的专家模型。基础模型先在高质量的领域专属数据上进行有监督微调(SFT),以建立基础能力。随后,采用分组相对策略优化(GRPO)算法(DeepSeek-AI, 2025)应用强化学习(RL),结合针对特定成功标准定制的奖励模型,进一步优化模型以适配领域相关的行为表现。此阶段会产出一批多样化的专业专家模型,各模型均在对应领域表现出色。最后,为整合这些差异化能力,通过在线策略蒸馏训练出一个统一的大模型,该统一模型作为学生模型,学习以优化与教师模型之间的反向KL散度损失。

核心评估结果总结

  • 知识能力:在对全球通用知识的评估中,DeepSeek-V4-Pro 的最大推理能力模式 DeepSeek-V4-Pro-Max 在 SimpleQA(OpenAI,2024d)和 Chinese-SimpleQA(He 等人,2024)基准测试中显著优于主流开源模型。在教育知识方面——通过 MMLU-Pro(Wang 等人,2024b)、HLE(Phan 等人,2025)和 GPQA(Rein 等人,2023)进行评估——DeepSeek-V4-Pro-Max 相较于其开源同类模型展现出微弱优势。尽管在这些基于知识的评估中仍落后于主流闭源模型 Gemini-3.1-Pro,但 DeepSeek-V4-Pro-Max 已大幅缩小了与该模型的差距。

  • 推理:通过扩展推理token,DeepSeek-V4-Pro-Max在标准推理基准测试中展现出优于GPT-5.2和Gemini-3.0-Pro的性能。不过,其性能略逊于GPT-5.4和Gemini3.1-Pro,这表明其发展进度比当前最前沿的顶级模型落后约3至6个月。此外,DeepSeek-V4-Flash-Max取得了相当的性能达到 GPT-5.2 和 Gemini-3.0-Pro 水平,使其成为处理复杂推理任务的高性价比架构。

  • 智能体:在公开基准测试中,DeepSeek-V4-Pro-Max 与 Kimi-K2.6、GLM-5.1 等主流开源模型表现相当,但略逊于前沿闭源模型。在我们的内部评估中,DeepSeek-V4-Pro-Max 的性能优于 Claude Sonnet 4.5,且接近 Opus 4.5 的水平。

  • 长上下文:DeepSeek-V4-Pro-Max 凭借 100 万 token 的上下文窗口,在合成场景和实际用例中表现出色,在学术基准测试中甚至超越了 Gemini-3.1-Pro。

  • DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 对比:DeepSeek-V4-Flash-Max 因参数规模更小,在知识评估中表现出更低的性能。不过,当分配更大的思考预算时,它在推理任务上能取得相当的结果。在智能体评估中,尽管 DeepSeek-V4-Flash-Max 在多个基准测试上与 DeepSeek-V4-Pro-Max 表现相当,但在更复杂、高难度的任务上,它仍落后于参数规模更大的后者。

架构

总体而言,DeepSeek-V4 系列保留了 Transformer(Vaswani 等人,2017)架构和多令牌预测(MTP)模块(DeepSeek-AI,2024;Gloeckle 等人,2024),同时对 DeepSeek-V3 进行了多项关键升级:

(1)首先,我们引入了流形约束超连接(mHC)(Xie 等人,2026)来强化传统的残差连接;

(2) 其次,我们设计了一种混合注意力架构,通过压缩稀疏注意力和重度压缩注意力大幅提升了长上下文效率。(3) 第三,我们采用 Muon(Jordan 等人,2024;Liu 等人,2025)作为优化器。对于混合专家(MoE)模块,我们仍采用 DeepSeekMoE(Dai 等人,2024)架构,仅对 DeepSeek-V3 做了少量调整。多令牌预测(MTP)(DeepSeek-AI,2024;Gloeckle 等人,2024;Li 等人,2024;Qi 等人,2020)配置与 DeepSeek-V3 保持一致。所有其他未明确说明的细节均遵循 DeepSeekV3(DeepSeek-AI,2024)中设定的配置。图 2 展示了 DeepSeek-V4 的整体架构,具体细节如下所述。

img

http://www.jsqmd.com/news/692606/

相关文章:

  • Ncorr 2D数字图像相关分析软件:15分钟完成从零到精通的完整指南
  • 别再乱试了!QT在Windows下用HIDAPI读写USB设备,这几个坑我帮你踩过了
  • 抖音视频批量下载神器:三步搞定无水印内容采集
  • 从噪音困扰到静音享受:FanControl个性化风扇控制实战指南
  • 终极指南:3步搞定macOS Xbox手柄驱动安装与优化
  • 2026年洛阳商务宴请首选指南:江浙菜高端定制与性价比完全对标 - 优质企业观察收录
  • Zotero插件市场:5分钟打造你的专属学术工具箱终极指南
  • 2026年AI影视创作平台与工具排行榜:十大热门AI影视创作工具推荐榜单
  • 论白盒测试方法及应用
  • RK3588上OpenCV C++环境搭好了,然后呢?一个图像灰度化实例带你快速上手
  • 3步掌握喜马拉雅音频下载:构建个人离线音频库的终极方案
  • 一次搞懂:Gradle 运行时 JDK 与项目 compileOptions 中的 Java 版本有什么区别?
  • 别再乱插了!手把手教你理解PCIe热插拔的硬件检测原理(PRSNT引脚详解)
  • 分析凤凰人家400g迁西有机板栗仁丰收礼盒,板栗仁精品定制哪家服务好 - 工业品牌热点
  • 【紧急预警】传统农业嵌入式系统正面临容器化淘汰潮!3类不可逆架构缺陷及2小时内可迁移的Docker替代方案
  • 基于Q-Learning的自适应井字棋AI设计与优化
  • 深度解析LeagueAkari:基于LCU API的英雄联盟工具开发架构实战
  • Unity UGUI无限滑动列表实战:从背包系统到排行榜,性能优化全解析
  • 法博会认证!26年合同审查神器火眼审阅实测:即开即用
  • 2026年唐山食品品牌排名凤凰人家食品本地品牌靠谱吗 - myqiye
  • LayerDivider:基于色彩聚类的智能图像分层技术解析
  • Android系统启动时,GPS HAL服务是如何拉起并加载gps.xxx.so驱动文件的?
  • 崩坏星穹铁道终极自动化指南:三月七小助手让你的游戏时间翻倍
  • 内存布局决定吞吐上限,CPU缓存行对齐、NUMA绑定与SIMD解析器协同优化,C++网关延迟从142μs压至29μs,,
  • 2025黑苹果终极指南:如何用开源项目轻松安装macOS系统
  • 如何彻底卸载ExplorerPatcher?Windows界面定制工具完全清理指南
  • 海信空调应战格力,缺了点底气
  • 探讨积放线自动输送线厂家推荐,扬州德本性价比咋样? - 工业设备
  • VisualCppRedist AIO:终极解决方案,一键修复Windows运行库问题
  • 算法公平性工程师认证:软件测试从业者的职业转型新蓝海