当前位置：首页 > news >正文

Claude Opus 4.8 发布：性能提升、成本降低，还有多项新特性！

news 2026/7/24 20:37:24

1. 推出 Claude Opus 4.8 引发关注？

2026 年 5 月 28 日，Claude Opus 升级到新版本 Claude Opus 4.8。它在 Opus 4.7 基础上全面改进，在各项基准测试中表现更优，是更高效的协作伙伴。即日起，用户能以相同价格使用该版本。

2. Opus 4.8 有哪些新特性？

Opus 4.8 发布带来多项新特性。claude.ai 用户可控制 Claude 处理任务时投入的精力。Claude Code 新增“动态工作流”功能，能处理大规模问题。此外，Opus 4.8 的快速模式（模型运行速度可达 2.5 倍）成本比之前模型降低了三分之二。

3. Opus 4.8 的能力如何体现？

下表展示了 Opus 4.8 在编码、智能体技能、推理和实际知识工作任务测试中与前代模型及其他模型的对比情况。更多详细信息和更广泛的能力评估可查看 Claude Opus 4.8 系统卡片。

4. 与 Opus 4.8 协作体验怎样？

早期测试人员发现，Claude Opus 4.8 在执行智能体任务时，判断更可靠和敏锐。以下是部分测试人员分享的与 Opus 4.8 协作的体验：

Tom Pritchard 表示，Claude Opus 4.8 的判断力明显更出色。在 Claude Code 中，它能提出恰当的问题，发现自身错误，在计划不合理时提出异议，并在进行重大更改之前对复杂的多服务探索建立信心，是非常适合用于开发的模型。

Kay Zhu 称，在超级智能体基准测试中，Claude Opus 4.8 是唯一能端到端完成所有测试用例的模型，在成本相当情况下，击败了之前的 Opus 模型和 GPT - 5.5，对于翻译、深度研究、幻灯片制作和分析等智能体产品而言，具有强大的可靠性。

Michael Truell 提到，在 CursorBench 测试中，Claude Opus 4.8 在各个精力级别上都超越了之前的 Opus 模型。工具调用效率显著提高，在实现相同智能水平的情况下使用的步骤更少，并且能够完成端到端的任务。

Niko Grupen 指出，Claude Opus 4.8 在法律智能体基准测试中取得有史以来的最高分，也是首个在全通过标准上整体突破 10% 的模型。对于实质性的法律工作而言，这种准确性的提升意味着客户可更放心地将更多实际律师工作交给它处理。

Katie Parrott 认为，与 Opus 4.7 相比，Claude Opus 4.8 像是一次重大的用户体验升级：速度更快，更易于协作，并且在长时间会话中更能保持上下文和风格指导。在需要兼顾语气、品味和技术执行的工作中，一直信赖 Opus 4.8。

Miguel Gonzalez 表示，Claude Opus 4.8 是测试过的最强的计算机使用和浏览器智能体模型，在 Online - Mind2Web 测试中得分 84%，相比 Opus 4.7 和 GPT - 5.5 有显著提升。它能够保持反思并专注于任务，满足客户智能体工作负载端到端的可靠性需求。

Scott Wu 称，Claude Opus 4.8 能干净利落地使用工具，并始终如一地遵循指令，这正是自主工程工作负载在无人值守运行时所需要的。它在 Opus 4.6 基础上改进，解决了 Opus 4.7 中遇到的注释冗长和工具调用问题，为基于 Devin 进行开发的工程师带来更快的能力提升。

Michael Ran 提到，在长期评估中，Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成速度更快，输出内容更丰富、信息更密集。总体而言，信噪比明显更高。最大的区别在于，Opus 4.8 倾向于主动标记分析输入和输出中的问题，而其他模型常常忽略这些问题，将其留给用户去发现。

Joel Hron 表示，在 CoCounsel Legal 测试中，与之前的 Opus 模型相比，Claude Opus 4.8 在一致性和推理质量方面有显著提升。对于客户依赖的高风险专业工作流程而言，这种可靠性至关重要。在为法律和税务专业人士构建信托级 AI 系统时，这样的进步有助于提高现实工作流程中可信 AI 性能的标准。

Hanlin Tang 称，Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 用于数据和知识工作的 AI 智能体 Genie 中，新的 Opus 模型使智能体推理能力实现质的飞跃，能比之前的 Opus 模型更快地处理更深入的多步骤问题。其多模态能力还使 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理，令牌成本比 Opus 4.7 降低了 61%。

Aabhas Sharma 提到，对于 Hebbia 编排器中的金融文档工作流程，Claude Opus 4.8 保持了与 Opus 4.7 相同的高质量，同时在引用精度和检索令牌效率方面有明显提升，这对于客户每天处理的密集文件非常适用。

5. Opus 4.8 的“诚实性”改进在哪？

Opus 4.8 最显著的改进之一是其“诚实性”。训练所有模型保持诚实，如避免提出无法支持的主张。但 AI 模型普遍存在有时仓促下结论，即使证据不足也自信声称在工作中取得进展的问题。早期测试人员报告称，Opus 4.8 更有可能标记其工作中的不确定性，并且不太可能提出无根据的主张。评估也证实了这一点，结果显示 Opus 4.8 对自己编写的代码中存在的缺陷未加标注的可能性比前代模型低约四倍。

6. 模型发布前有何评估？

和往常一样，在模型发布前进行了详细的对齐评估。对齐团队认为，从积极方面来看，Opus 4.8“在支持用户自主性和为用户利益行事等亲社会特征的衡量标准上达到了新高度”。评估还显示，Opus 4.8 的行为偏差率（如欺骗或配合不当使用）明显低于 Opus 4.7，与对齐效果最佳的模型 Claude Mythos Preview 相当。完整的对齐评估以及一系列部署前安全测试结果都记录在 Claude Opus 4.8 系统卡片中。

7. 今日同步发布了哪些更新？

除了 Claude Opus 4.8，还进行了以下更新：

动态工作流：这个新功能目前处于研究预览阶段，它使 Claude 在 Claude Code 中能够承担更大型的任务。Claude 可以规划工作，然后在单个会话中运行数百个并行子智能体（使用 Opus 4.8 时，智能体的运行时间可以更长）。在向用户报告结果之前，它会验证输出。例如，搭载 Opus 4.8 的 Claude Code 现在可以从启动到合并，完成数十万行代码的代码库级迁移，并且以现有的测试套件为标准。

[claude.ai] 和 Cowork 中的精力控制：模型选择器旁边新增了一个控制选项，允许用户选择 Claude 在回复时投入的精力。在高精力设置下，Claude 会更频繁、更深入地思考，以提供更好的回复；在低精力设置下，Claude 会更快地回复，并且更慢地消耗用户的速率限制。现在，所有套餐的用户都可以进行这种选择。

消息 API 现在支持在消息数组中接受系统条目：开发人员可以在任务进行中更新 Claude 的指令，而无需打破提示缓存或通过用户回合进行更新。在智能体运行时，这可以用于更新权限、令牌预算或环境上下文。

8. 关于精力设置有何说明？

Opus 4.8 默认采用高精力设置，认为这是在质量和用户体验之间取得的最佳平衡。在编码任务中，这个精力级别消耗的令牌数量与 Opus 4.7 的默认设置相近，但性能更优。用户可以选择“额外”（在 Claude Code 中为 “`xhigh`”）或“最大”设置，模型会消耗更多令牌以获得更好的结果；建议在处理困难任务和长时间异步工作流时使用“额外”设置。为了适应更高精力级别下更高的令牌使用量，提高了 Claude Code 的速率限制；用户可以根据自己的具体项目选择合适的设置。

9. 未来有哪些规划？

用户会发现 Opus 4.8 相比前代模型有适度但显著的改进。还有更多工作要做：正在努力开发和发布成本更低但具备 Opus 诸多相同功能的模型。不仅如此，计划发布一类比 Opus 智能水平更高的新模型。作为玻璃翼项目的一部分，目前有少数组织正在将 Claude Mythos Preview 用于网络安全工作。这类高能力模型在广泛发布之前需要更强大的网络安全保障措施。正在迅速推进这些保障措施的开发，预计在未来几周内能够将 Mythos 级别的模型提供给所有客户。

10. 可用性如何？

Claude Opus 4.8 即日起在所有平台可用。常规使用的定价与 Opus 4.7 相同：每百万输入令牌 5 美元，每百万输出令牌 25 美元。快速模式的定价为每百万输入令牌 10 美元，每百万输出令牌 50 美元。开发人员可以通过 Claude API 使用 `claude-opus-4-8`。

11. 脚注内容有哪些？

Terminal - Bench 2.1：使用 Terminus - 2 公共测试框架报告了所有模型的得分。GPT - 5.5 使用 Codex CLI 测试框架的报告得分是 83.4%。

OSWorld - Verified：为了更准确地反映模型在现实世界中的性能，对 OSWorld - Verified 评估的运行方式进行了更改，并将 Opus 4.7 的得分更新为 82.3%。

Finance Agent v2：Gemini 3.5 Flash 在 Finance Agent v2 测试中得分 57.9%，相比 Gemini 3.1 Pro 有显著提升。

12. 相关内容有哪些？

Anthropic 以 9650 亿美元的投后估值完成 650 亿美元的 H 轮融资。

Anthropic 在米兰开设办事处，支持意大利企业、研究和开发人员。

Anthropic 在首尔办事处开业前任命 KiYoung Choi 为韩国代表董事。

产品包括 Claude、Claude Code、Claude Code 企业版、Claude Cowork、Claude 安全版、Claude for Chrome、Claude for Slack、Claude for Microsoft 365、技能、Max 套餐、团队套餐、企业套餐、下载应用、定价、登录 Claude。

模型包括 Mythos 预览版、Opus、Sonnet、Haiku。

解决方案包括 AI 智能体、代码现代化、编码、客户支持、教育、金融服务、政府、医疗保健、法律、生命科学、非营利组织、安全、小企业。

Claude 平台包括概述、开发人员文档、定价、市场、区域合规、Claude on AWS、Google Cloud 的 Vertex AI、Microsoft Foundry、控制台登录。

资源包括博客、Claude 合作伙伴网络、社区、连接器、课程、客户案例、Anthropic 的工程团队、活动、深入了解 Claude Code、深入了解 Claude Cowork、深入了解 Claude 企业版、深入了解 Claude 安全版、插件、由 Claude 提供支持、服务合作伙伴、创业公司计划、教程、用例。

帮助与安全包括可用地区、状态、支持中心。

公司包括 Anthropic、职业机会、经济前景、研究、新闻、Claude 宪章、负责任的扩展政策、安全与合规、透明度。

条款与政策包括隐私政策、消费者健康数据隐私政策、负责任的披露政策、商业服务条款、消费者服务条款、使用政策。

查看全文

http://www.jsqmd.com/news/914842/