当前位置: 首页 > news >正文

DeepSeek V4 追平Opus:7倍便宜差0.2%,我替你测了

DeepSeek V4 追平 Claude Opus:7倍便宜、SWE-bench 差0.2%,日常写代码到底够不够用?

DeepSeek V4 出来那天,朋友圈炸了。

原因就一个:SWE-bench Verified 80.6%,Claude Opus 4.6 是 80.8%,差 0.2 个百分点,基本打平。但 API 价格差了好几倍。

跑分打平了,日常写代码真够用吗?我用 Claude Code 接 V4-Pro 跑了一阵,说几句实话。

先看硬数据

模型

输入/百万token

输出/百万token

SWE-bench

DeepSeek V4-Pro

$1.74

$3.48

80.6%

Claude Sonnet 4.7

$3.00

$15.00

~72%

Claude Opus 4.7

$5.00

$25.00

~82%

GPT-5.4

$2.50

$15.00

~76%

同样 400 万 tokens(输入输出 7:3)跑下来:$26

Claude Sonnet 4.6 $44

Claude Opus 4.7 $2.26

DeepSeek V4-Pro

11 倍价差。不是省一点半点,是省出一个数量级。

还有个 V4-Flash,输出 $0.28/百万 token,是 Sonnet 的 1/50。读文件、简单问答、格式化这种活儿,便宜到不用看账单。

哪些场景 V4-Pro 真能打

代码补全和逻辑推理——跟 Claude 差距不大。日常写函数、补全逻辑、重构变量,多数时候感觉不到切换的落差。

长上下文任务——1M tokens 不是摆设。读大文件、跟踪变量依赖没出过问题。单 token 推理 FLOPs 只有 V3.2 的 27%,KV 缓存用量 10%,长上下文效率比上一代强不少。

有规律的工作——重构、补全、单测,有套路可循的任务输出稳定,不太出幺蛾子。

哪些场景还得加钱上 Claude

图片/视觉输入——完全不行。V4-Pro 目前不支持图片输入。架构截图、UI 设计稿、报错日志截图,全做不了。更要命的是不报错——图片被静默替换成占位符,你以为模型看到了其实没看到。涉及图片的场景,老老实实切回 Claude。

深度业务理解——比 Claude "字面"得多。你让它重构,它严格按字面意思动,不会主动发现周边问题。Claude Sonnet 会更主动——"你这个接口这么改可能影响 XX 模块",V4-Pro 不主动提这种事。V4-Pro 是听话的执行者,不是有想法的搭档。

工具调用稳定性——还有差距。Claude 原生后端工具调用明显更顺滑。V4 接过来偶尔卡顿,不影响大局但能感觉到。

接入 Claude Code:15分钟搞定,但踩了5个坑

DeepSeek 提供了 Anthropic 兼容接口,改两行配置就行。但坑不少:

坑1:模型名字写错会静默降级。settings.json 里还写 claude-sonnet-4-6 的话,DeepSeek 不认识,会悄悄 fallback 到 V4-Flash。你以为在用 Pro,其实在用 Flash。必须明确写 "model": "deepseek-v4-pro"。

坑2:Base URL 别多加 /v1。写成 https://api.deepseek.com/anthropic/v1 会 404。正确地址末尾不加 /v1。

坑3:默认超时 120 秒不够。V4-Pro 处理大量上下文的复杂任务时容易超时。建议设 "apiTimeout": 600000。

坑4:图片被静默丢弃。前面说了,这个最阴。

坑5:折扣有时限。V4-Pro 上线时 75% 折扣,5月5号截止。截止后回原价,但原价也比 Sonnet 便宜 4 倍。

我的用法:分级路由,各干各的

我不搞"非此即彼",这么分:

场景

用什么

为什么

日常补全、重构、单测

V4-Pro

够用,省 11 倍

读文件、简单问答

V4-Flash

便宜到不看账单

涉及截图/UI/日志

Claude Sonnet

V4 看不了图

复杂架构决策

Claude Opus

需要有想法的搭档

商业项目敏感代码

Claude

服务器合规考虑

开源社区有个 claude-code-router,按任务类型自动路由——有图走 Claude,纯文字走 DeepSeek。想省心可以试试。

V4-Pro 性价比是真的。SWE-bench 打平 Opus 不是噱头,日常写代码 80% 的场景够用。

但"够用"和"好用"是两码事。V4-Pro 是极性价比的执行者,不是能主动发现问题的搭档。看不了图、不会主动给建议、工具调用偶尔卡——这些在极限场景下让你觉得还是 Claude 香。

别选边,分级用。
日常 V4-Pro 省钱,关键决策上 Claude。
这不是将就,是聪明。

写代码这活儿,能省的钱干嘛不省?

你试过 DeepSeek V4 写代码吗?体感跟 Claude 差多少?评论区聊聊。

http://www.jsqmd.com/news/841742/

相关文章:

  • 使用Nodejs快速将Taotoken大模型API集成到你的Web应用中
  • ArcGIS Pro二次开发:地图图层管理的10个高频代码片段(附避坑指南)
  • Python数据类型:类class、反射dataclasses、functools、typing、pydantic
  • 开源大模型垂直应用:基于OpenClaude构建法律AI助手的技术实践
  • 开源AI对话模型本地部署指南:从架构设计到性能优化
  • 基于AWTK与AWPLC的嵌入式走马灯:零代码图形化开发实践
  • 嵌入式测试学习第 14 天:数字电路基础:高低电平、0和1、逻辑电平
  • 避开安全门调试大坑:详解西门子SFDOOR指令的3个关键参数与常见故障复位
  • TVA在证券K线形态分析中的创新应用(10)
  • 【NotebookLM脑机接口前沿突破】:2024年谷歌实验室未公开技术路径与神经解码精度提升37%的关键证据
  • 本地Cookie导出终极指南:Get cookies.txt LOCALLY浏览器扩展完全解析
  • ▲基于4FSK调制解调+LDPC编译码+扩频解扩通信链路matlab误码率仿真
  • VirtualWife项目解析:基于LLM与向量数据库构建可记忆AI伴侣的工程实践
  • QMCDecode:3步解锁QQ音乐加密音频的终极Mac解决方案
  • Taotoken账单追溯功能如何帮助厘清项目间的AI资源消耗
  • AI-7D-SATS 平台的架构选型:为什么选择“Workflow + Multi-Agent“的混合架构?
  • YOLOv8实战:构建实时跌倒预警监控系统
  • Qualia ESP32-S3开发指南:分层架构与settings.toml配置实践
  • 微信自动化框架copaw-wechat:基于UI自动化的机器人开发实战
  • TVA系统100毫秒实时推理四大核心技术
  • 终极免费开源项目管理指南:如何用GanttProject高效规划复杂项目?
  • 春秋云境Time靶场实战:从Neo4j漏洞到域控沦陷的完整攻击链剖析
  • 质性数据处理太慢?NotebookLM+NVivo双引擎协同方案,效率提升3.8倍,仅限首批200名研究者获取
  • 操作系统资源合集
  • 测试0998y测试0998y测试0998y测试0998y
  • 【软考高级架构】论文范文19——论软件系统架构风格
  • 备战蓝桥杯国赛【Day 16】
  • MATLAB浮动许可利用率低:软件许可浪费,提高周转率
  • 从零构建AI智能体技能库:设计、实现与集成实战
  • 利用Taotoken实现AI应用的高可用与容灾路由设计思路