当前位置: 首页 > news >正文

DeepSeek-V4 深度解读:百万上下文背后的工程细节

1M token 上下文设置下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,KV Cache 仅为 V3.2 的 10%;V4-Flash 更激进——FLOPs 10%、KV Cache 7%。百万上下文从演示用 demo,变成了可以日常跑的工作负载。

过去两年大模型的进步基本沿着两条主线:一条是 reasoning 模型靠更长的思考链做 test-time scaling 刷指标;另一条是 agentic 工作流——动辄要处理跨多文档、多工具调用的长 horizon 任务。这两条路都十分需要 context length,而 vanilla attention 是 O(n²) 的:上下文每翻一倍,attention 部分的算力和显存都要翻四倍。这就是为什么大多数开源模型号称 128K,但是到了真实 64K 已经卡顿。

DeepSeek-V4 想解决的正是这个问题,用混合稀疏注意力(CSA + HCA)把 KV Cache 沿序列维度狠压一刀,用 mHC(流形约束的超连接)顶住深层堆叠的数值不稳定,用 Muon 优化器加快收敛,再用 FP4 量化感知训练把 MoE 权重砍一半,这样1M 上下文的边际成本被压到能用的程度。

本文围绕三个问题:长上下文效率到底怎么破(架构);万亿 MoE 怎么稳定训练(基础设施 + trick);十几个领域专家如何合并成一个模型(后训练)。

https://avoid.overfit.cn/post/96c19e7a2337440ca6edeec7e36191b3

http://www.jsqmd.com/news/710478/

相关文章:

  • AI视频换脸技术:原理、优化与实践指南
  • 3分钟学会Input Leap:免费开源跨平台设备共享解决方案
  • 雀魂AI助手Akagi:免费开源麻将分析工具,实时提升你的麻将水平
  • Akagi麻雀助手完整指南:如何用AI提升雀魂游戏水平
  • DSMC-Magus:为AI智能体构建外部大脑,解决长会话稳定性难题
  • 3个场景让Android自动化效率倍增:AutoTask智能任务管理实战指南
  • 从‘端点效应’到‘必要性探路’:一个高中数学老师的高观点解题笔记
  • E7Helper完整指南:24小时自动刷第七史诗,解放你的游戏时间
  • 敏捷开发必备-自动化测试工具解析与实践指南
  • RabbitMQ - 在微服务架构中的落地实践:消息推送 / 解耦 / 削峰填谷
  • 如何将Meteor与Nuxt.js集成:Vue生态的完美协作指南
  • 告别臃肿控制软件:5步解决华硕笔记本性能与续航难题
  • AWS批处理作业终极指南:Batch服务的智能任务调度与优化
  • 【农业物联网数据融合实战指南】:Python多源异构数据清洗、对齐与实时融合的7大关键步骤
  • DevDocs性能监控体系:构建高速稳定文档服务的完整指南
  • AWS API网关架构设计模式:构建高可用的微服务架构终极指南
  • 解密sd-webui-controlnet:如何让AI绘画真正听懂你的指令?
  • Zotero重复文献合并终极指南:告别文献库混乱的完整解决方案
  • PTS技术:优化LLM训练的关键token动态搜索方法
  • 【收藏向】2026年版AI产品经理工作指南:从0到1打造第一个AI智能体
  • PDF文件体积过大如何解决?开源工具pdfsizeopt帮你实现无损压缩
  • 终极英语单词发音MP3音频库:免费获取11.9万单词标准发音
  • 衣物防串色母片:科学原理与实测效果全解析 - 行业分析师666
  • 缠论交易可视化:3分钟让K线图开口说话的智能分析插件
  • XUnity.AutoTranslator完整指南:让Unity游戏瞬间跨越语言障碍的终极解决方案
  • jq变量作用域终极指南:掌握局部与全局变量的使用场景
  • 解放双手!用游戏手柄控制Windows电脑的终极懒人方案
  • Ragas评估框架深度解析:企业级RAG系统性能优化实战
  • 新范式部署工具awesome-docker:自动化部署的终极指南
  • 基于微信小程序的上门维修系统(文档+源码)_kaic