Claude Opus 4.7 实测:编程、视觉与 Agent 能力有哪些变化?
4 月 16 日,Anthropic 正式发布了 Claude Opus 4.7。距离上一代 Opus 4.6 发布刚好两个月,这次更新看似是一个小版本迭代,但实际用下来,你会发现它的"体感"比 4.6 强了一大截。
一、Opus 4.7 的核心升级
先看几个硬指标,这些数据来自 Anthropic 官方。
编程能力又往前迈了一大步。在 SWE-bench Verified 基准上,Opus 4.7 从 Opus 4.6 的 80.8% 提升到 87.6%,接近 7 个百分点的涨幅,超过了 Gemini 3.1 Pro 的 80.6% 。
更直观的案例是 早期合作伙伴 Warp 确认,Opus 4.7 通过了此前所有 Claude 模型都无法完成的 Terminal-Bench 任务,包括一个 Opus 4.6 未通过的并发 bug。
视觉能力直接三倍提升。这是这次更新里最显眼的升级。Opus 4.7 是首款支持高分辨率图像输入的 Claude 模型,图像长边上限从 1568 像素(约 1.15 百万像素)提升到 2576 像素(约 3.75 百万像素)。
放到实际场景里就是:截图里的小字能看清了、架构图的细节能准确识别了、扫描文档里那些密密麻麻的表格也能读出来了。
Agent 场景更稳、更省。Box 的 AI 负责人透露,在他们的内部评估中,Opus 4.7 相比 4.6 减少了 56% 的模型调用和 50% 的工具调用 。简单说就是同样一个任务,Opus 4.7 能用更少的步骤把事情办完。
新增xhigh 推理档位和任务预算。
Anthropic 在原有的 high 和 max 之间新增了 xhigh 档位,让开发者在推理深度和延迟之间有更细的控制 。另外引入了 Task Budgets(任务预算)功能,可以给 Agent 设置 token 硬上限,避免失控消耗。
跨会话记忆能力加强。现在它能跨多次对话保留关键笔记,下次接着干活不用重新喂一遍背景,对长项目来说是实打实的效率提升。
二、开发者需要注意的 API 变化
当然,它也不是完美的。
第一个坑:新 tokenizer 可能让你多花钱。 Opus 4.7 使用了新的分词器,同样内容的 token 消耗大约是原来的 1.0 到 1.35 倍,最多会多消耗约 35% 的 token 。官方定价没变(每百万输入 5 美元、输出 25 美元),但实际账单可能悄悄涨一些。
第二个坑:API 有破坏性变更。 Opus 4.7 移除了 extended thinking budgets,继续设置 budget_tokens 会直接返回 400 错误;设置 temperature、top_p、top_k 为非默认值也会报错 。
老代码迁移时需要调整。
第三个坑:不是所有场景都领先。 Terminal-Bench 2.0 上出现了回退,GPT-5.4 得分 75.1%,Opus 4.7 只有 69.4%;BrowseComp 相比 4.6 也有所下降 。
如果你的场景重度依赖终端操作或浏览器自动化,GPT 可能仍然更合适。
第四个坑:头顶上还有个更强的。Anthropic 官方承认,Opus 4.7 仍然不如内部的 Mythos Preview,但后者因为安全考虑只放给极少数合作方,大众用不到 。
也就是说,Anthropic 手里有一张更强的牌还没打。
三、与 Opus 4.6 的差异对比
把重点升级列成一张清单:
· 编程能力:93 项内部编程基准整体提升 13%
· 视觉分辨率:1.15 MP → 3.75 MP,三倍以上
· 工具调用错误率:降到前代的三分之一
· 新增 xhigh 推理档位和 Task Budgets
· Claude Code新增 /ultrareview 命令,用于上线前代码审查
· 跨会话文件系统记忆能力增强
· 内置实时网络安全防护(自动拦截高风险请求)
· 价格不变:5 美元 / 25 美元每百万 token
四、Claude Opus 4.7 常见使用方式整理
接下来是重点——目前开发者常见的使用方式主要有以下几类。
方法一:官网平台 Claude 会员
官方平台通常能够第一时间体验最新功能。官网的功能始终是第一梯队:Opus 4.7 第一时间到位、Claude Code、Artifacts、Projects、Cowork、Excel/PPT 集成等一整套全都能用。
但问题也实在:Anthropic 对账号环境与网络稳定性要求较高,部分用户在使用过程中可能会遇到验证或访问限制。
如果要走这条路,建议选择正规服务商,并优先考虑支持售后保障的平台。比 WildAI 礼品卡、Google Play这类平台。
适合人群:追求完整体验、对稳定性要求高、愿意多花一点钱买省心的用户。
方法二:CC 中转(Claude Code 中转)
如果你主要是用 Claude Code 写代码,CC 第三方兼容服务是性价比最高的方案之一。
原理很简单:你不直接订阅官方 Claude Code,而是用第三方兼容服务的账号接入,Claude Code 和 Codex 通常可以一起用。
需要注意的是,市面上的 CC 中转质量参差不齐,有些平台会悄悄用 Sonnet 冒充 Opus,或者把旧版本挂成 4.7。
下单前建议先让它跑一个 Opus 4.7 才能解决的任务(比如那些 Opus 4.6 存在限制的并发 bug)建议通过实际任务测试模型效果。
0011.ai
合人群:Claude Code 重度用户、做 Agent 开发的程序员。
方法三:Claude 第三方聚合平台
如果你不想折腾命令行,只想用网页聊天界面,第三方 AI 平台是最省事的选择。直接打开浏览器就能用,支持国内支付、国内网络环境下即可访问、注册也简单,比较出名的有Poe和2233.ai,感兴趣的都可以去体验一下。
2233.ai
Poe:poe.com
缺点是明显的:
· 通常比官方价格略贵(平台要留利润)
· 部分高级功能(比如 Cowork、完整的 Projects 体系)可能用不了
· 上下文窗口、文件上传限制可能不如官网
· 不同聚合 AI 平台数据安全标准不同,敏感内容建议别用
方法四:API 聚合服务
这是给开发者或者有定制需求的用户准备的。
API 聚合服务提供和官方兼容的接口(很多还支持 OpenAI 格式转发),你按实际消耗的 token 付费,没有月费。
调用 claude-opus-4-7 这个模型 ID 就能用。
优点:
· 按量付费,用多少花多少,适合低频但对质量要求高的场景
· 可以和自己的应用、工作流深度集成
· 一个平台通常能同时调用 Claude、GPT、Gemini 等多个模型
缺点:
· 没有可视化界面,要会写代码或至少会配一个 GUI 客户端(比如 Cherry Studio、Chatbox、LobeChat)
· 中转站质量差异大,低价的往往用的是降级或拼接模型
· 官方原生功能(比如 Artifacts、Cowork)无法通过 API 使用
目前程序员圈子比较出名的就两个,一个是国内的GPTsAPI,另外一个是Openrouter。
GPTsAPI
OpenRouter
适合人群:开发者、重度 API 用户、需要在自己产品里集成 Claude 能力的团队。
最后想说,虽然Opus4.7升级有点东西,但是它的身份验证和风控,大家还是需要注意点。
