当前位置：首页 > news >正文

DeepSeek V4 追平Opus：7倍便宜差0.2%，我替你测了

news 2026/7/17 20:25:20

DeepSeek V4 追平 Claude Opus：7倍便宜、SWE-bench 差0.2%，日常写代码到底够不够用？

DeepSeek V4 出来那天，朋友圈炸了。

原因就一个：SWE-bench Verified 80.6%，Claude Opus 4.6 是 80.8%，差 0.2 个百分点，基本打平。但 API 价格差了好几倍。

跑分打平了，日常写代码真够用吗？我用 Claude Code 接 V4-Pro 跑了一阵，说几句实话。

模型	输入/百万token	输出/百万token	SWE-bench
DeepSeek V4-Pro	$1.74	$3.48	80.6%
Claude Sonnet 4.7	$3.00	$15.00	~72%
Claude Opus 4.7	$5.00	$25.00	~82%
GPT-5.4	$2.50	$15.00	~76%

同样 400 万 tokens（输入输出 7:3）跑下来：$26

Claude Sonnet 4.6 $44

Claude Opus 4.7 $2.26

DeepSeek V4-Pro

11 倍价差。不是省一点半点，是省出一个数量级。

还有个 V4-Flash，输出 $0.28/百万 token，是 Sonnet 的 1/50。读文件、简单问答、格式化这种活儿，便宜到不用看账单。

代码补全和逻辑推理——跟 Claude 差距不大。日常写函数、补全逻辑、重构变量，多数时候感觉不到切换的落差。

长上下文任务——1M tokens 不是摆设。读大文件、跟踪变量依赖没出过问题。单 token 推理 FLOPs 只有 V3.2 的 27%，KV 缓存用量 10%，长上下文效率比上一代强不少。

有规律的工作——重构、补全、单测，有套路可循的任务输出稳定，不太出幺蛾子。

图片/视觉输入——完全不行。V4-Pro 目前不支持图片输入。架构截图、UI 设计稿、报错日志截图，全做不了。更要命的是不报错——图片被静默替换成占位符，你以为模型看到了其实没看到。涉及图片的场景，老老实实切回 Claude。

深度业务理解——比 Claude "字面"得多。你让它重构，它严格按字面意思动，不会主动发现周边问题。Claude Sonnet 会更主动——"你这个接口这么改可能影响 XX 模块"，V4-Pro 不主动提这种事。V4-Pro 是听话的执行者，不是有想法的搭档。

工具调用稳定性——还有差距。Claude 原生后端工具调用明显更顺滑。V4 接过来偶尔卡顿，不影响大局但能感觉到。

DeepSeek 提供了 Anthropic 兼容接口，改两行配置就行。但坑不少：

坑1：模型名字写错会静默降级。settings.json 里还写 claude-sonnet-4-6 的话，DeepSeek 不认识，会悄悄 fallback 到 V4-Flash。你以为在用 Pro，其实在用 Flash。必须明确写 "model": "deepseek-v4-pro"。

坑2：Base URL 别多加 /v1。写成 https://api.deepseek.com/anthropic/v1 会 404。正确地址末尾不加 /v1。

坑3：默认超时 120 秒不够。V4-Pro 处理大量上下文的复杂任务时容易超时。建议设 "apiTimeout": 600000。

坑4：图片被静默丢弃。前面说了，这个最阴。

坑5：折扣有时限。V4-Pro 上线时 75% 折扣，5月5号截止。截止后回原价，但原价也比 Sonnet 便宜 4 倍。

我不搞"非此即彼"，这么分：