当前位置：首页 > news >正文

DeepSeek-V4-Pro：当1M上下文真正“可用”时，开源模型用数据终结了闭源前沿的溢价神话

news 2026/6/23 13:49:59

DeepSeek-V4-Pro：当1M上下文真正“可用”时，开源模型用数据终结了闭源前沿的溢价神话

2026年5月1日凌晨，一位前Meta AI工程师、现dair_ai创始人@omarsar0在X上发帖，标题直白却震撼：“我用DeepSeek-V4-Pro + Pi coding agent，几个小时就搭出了一个完整的LLM wiki。”他没加任何prompt工程，没做特殊配置，直接把模型插进Pi这个极简终端agent harness，在FireworksAI上跑推理。结果呢？Agent自主从Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere的官方文档里扒最佳实践，爬Reddit/HN线程，总结arXiv论文，追踪GitHub trending repos，最后提炼成40条跨7大类别的“agent engineering” actionable tips，全部标记Complete。

视频里，屏幕上Pi的界面像一台精密的工程实验室：左侧任务面板实时显示“Tips 40/40”“Companies 9/9”“arXiv papers 10/10”“GitHub repos 14”，右侧Markdown文件实时生成——deepseek-function-calling.md、anthropic-tool-use.md、cohere-tool-use.md、memory.md、orchestration.md……鼠标点击切换，Agent在多步research、code scaffolding、context-heavy reasoning间无缝切换，没有一次崩溃。

这不是营销demo，这是理科生最爱的“可复现实验”：一个开源权重模型，在真实agent loop里，第一次让人感觉“像Claude + Codex一样开箱即用”。我挖了官方技术报告、Hugging Face发布、Fireworks基准、Artificial Analysis数据，把所有硬数据摆出来。你会看到，这背后不是玄学，而是架构级降维打击：DeepSeek-V4-Pro用混合压缩注意力，把1M上下文从“理论可行”变成了“工程可落地”。

先看模型硬参数：1.6T MoE，却只激活49B

总参数：1.6T（DeepSeek-V4-Pro），激活参数49B（MoE架构）
上下文窗口：原生1M tokens（V4-Flash为284B总/13B激活，同1M）
发布日期：2026年4月24日（preview版），MIT开源，Hugging Face直接下载
推理模式：hybrid thinking/non-thinking，支持Max Effort（Pro-Max）

对比前代V3.2（671B）：V4-Pro在1M上下文下，单token推理FLOPs仅为V3.2的27%，KV cache仅为V3.2的10%。

更直观的KV cache实测数据（FP16，来自vLLM + 官方论文拆解）：

模型	128K上下文	160K上下文	1M上下文	KV cache占总内存比例
V3.2	10.48 GiB	13.11 GiB	83.88 GiB	6.25%
V4-Flash	0.84 GiB	1.05 GiB	6.72 GiB	1.18%
V4-Pro	1.20 GiB	1.50 GiB	9.62 GiB	0.3%

这是怎么做到的？核心是Hybrid CSA + HCA注意力机制（Compressed Sparse Attention + Heavily Compressed Attention，层间交替）：

CSA：每4个token压缩成1个KV entry（m=4），再用Lightning Indexer做top-k稀疏选择 + sliding window保局部细节。
HCA：压缩率m’远大于m（实际~128），直接dense attention于压缩后的stream。
额外：KV entry混合存储（RoPE维度BF16，其余FP8），CSA indexer QK路径FP4量化。

结果：1M上下文下，内存和算力不再是指数爆炸。理科生算盘一打：这直接把“agent长期记忆”从实验室玩具变成了生产力工具。

基准数据说话：agentic coding已逼近闭源顶流

官方+第三方基准（Pro-Max努力模式为主）：

基准	DeepSeek-V4-Pro (Max)	Claude Opus 4.7	GPT-5.5 / Codex	其他开源SOTA
SWE-Bench Verified	~91.2% / 80.6%	93.9%	~93.5%	-
HumanEval Pass@1	76.8% (base) →更高	-	~92%	V3.2: 62.8%
MMLU-Pro	73.5% (base) / 87.5%	-	-	V3.2: 65.5%
GPQA Diamond	90.1%	-	-	-
Codeforces Rating	3206	-	-	-
Artificial Analysis Intelligence Index	52	-	-	Kimi K2.6: 更高但闭源
GDPval-AA (agentic)	1554	-	-	GLM-5.1: 1535

关键洞察：在真实agentic任务（SWE-Bench、Terminal-Bench、GDPval-AA）上，V4-Pro已是开源第一，逼近甚至局部超越Claude Opus 4.7。Pi里的wiki构建，就是多轮tool calling + 长上下文消化的活证据：Agent不仅“会写代码”，还自主完成了“研究-提炼-结构化”全链路。

成本数据：Fireworks上跑，闭源的1/10甚至更低

FireworksAI（@omarsar0用的平台）定价（2026年5月数据）：

Input: $1.74 / M tokens（cached $0.15）
Output: $3.48 / M tokens
1M上下文完整推理：TTFT 1.13s，输出吞吐167.1 tokens/s（行业最快）

对比闭源（ approximate 2026市价）：

Claude Opus 4.7：Input ~$15/M，Output ~$75/M（50x+差距）
GPT-5.5 / Codex：Input ~$10-30/M

一篇1M上下文的agent任务，V4-Pro可能只花闭源的5-10%。@omarsar0说“cost-effective”不是空话——这是让“agent swarm”从PPT走向现实的经济基础。

Pi harness的“出箱即用”：为什么这次不一样

Pi不是又一个花里胡哨的agent框架。它是极简终端coding harness（by badlogic/mariozechner），核心哲学：适应你的workflow，而不是反过来。支持extensions、skills、prompt templates、自修改代码。@omarsar0直接把V4-Pro插进去，默认medium thinking，就跑通了多源research + wiki生成，没有“corrupted reasoning traces”。Fireworks的系统级验证+模型本身的robustness，让loop响应快到“像Claude Code一样流畅”。

这才是最狠的蛛丝马迹：最强的开源模型，终于第一次不需要“特殊配置”就能塞进生产级agent harness。

我的结论：这不是模型迭代，这是范式拐点

DeepSeek-V4-Pro用数据证明了两件事：

长上下文agent的工程瓶颈被彻底击穿。1M tokens不再是营销数字，而是KV cache只剩10%、FLOPs只剩27%的可落地现实。未来agent不再是“单次对话”，而是能持久记忆、跨文件、跨文档、跨会话的“数字同事”。
开源权重 + 极致效率，正在终结闭源的定价护城河。当一个MIT许可的1.6T模型，在Fireworks上以闭源1/10的价格跑出接近Claude Opus的agentic表现时，创业团队、中小企业、独立开发者终于能用得起“前沿agent”了。地缘政治因素（数据驻留、中国模型自主可控）反而成了额外红利。

更深层的思考：我们过去两年追的“参数规模竞赛”和“闭源Elo分数”，可能只是暂时的表象。真正的下一幕，是谁先把智能变成可规模化、可负担的生产力。DeepSeek-V4-Pro不是在追赶Claude/GPT，它在用架构创新重新定义“可用性”。当Pi这样的极简harness + V4-Pro这样的高效模型成为标配时，AI agent将从精英玩具，变成每个理科生、每个工程师日常工具链的一部分。

这篇wiki，@omarsar0只花了几个小时就建好了。它不是终点，而是起点。

数据摆在这里，结论很清晰：开源AI的真正春天，来了。而DeepSeek，用1M上下文和10% KV cache，把门彻底踢开了。

查看全文

http://www.jsqmd.com/news/734599/