当前位置: 首页 > news >正文

Claude Opus 4.8 发布:性能提升、成本降低,还有多项新特性!

1. 推出 Claude Opus 4.8 引发关注?

2026 年 5 月 28 日,Claude Opus 升级到新版本 Claude Opus 4.8。它在 Opus 4.7 基础上全面改进,在各项基准测试中表现更优,是更高效的协作伙伴。即日起,用户能以相同价格使用该版本。

2. Opus 4.8 有哪些新特性?

Opus 4.8 发布带来多项新特性。claude.ai 用户可控制 Claude 处理任务时投入的精力。Claude Code 新增“动态工作流”功能,能处理大规模问题。此外,Opus 4.8 的快速模式(模型运行速度可达 2.5 倍)成本比之前模型降低了三分之二。

3. Opus 4.8 的能力如何体现?

下表展示了 Opus 4.8 在编码、智能体技能、推理和实际知识工作任务测试中与前代模型及其他模型的对比情况。更多详细信息和更广泛的能力评估可查看 Claude Opus 4.8 系统卡片。

4. 与 Opus 4.8 协作体验怎样?

早期测试人员发现,Claude Opus 4.8 在执行智能体任务时,判断更可靠和敏锐。以下是部分测试人员分享的与 Opus 4.8 协作的体验:

Tom Pritchard 表示,Claude Opus 4.8 的判断力明显更出色。在 Claude Code 中,它能提出恰当的问题,发现自身错误,在计划不合理时提出异议,并在进行重大更改之前对复杂的多服务探索建立信心,是非常适合用于开发的模型。

Kay Zhu 称,在超级智能体基准测试中,Claude Opus 4.8 是唯一能端到端完成所有测试用例的模型,在成本相当情况下,击败了之前的 Opus 模型和 GPT - 5.5,对于翻译、深度研究、幻灯片制作和分析等智能体产品而言,具有强大的可靠性。

Michael Truell 提到,在 CursorBench 测试中,Claude Opus 4.8 在各个精力级别上都超越了之前的 Opus 模型。工具调用效率显著提高,在实现相同智能水平的情况下使用的步骤更少,并且能够完成端到端的任务。

Niko Grupen 指出,Claude Opus 4.8 在法律智能体基准测试中取得有史以来的最高分,也是首个在全通过标准上整体突破 10% 的模型。对于实质性的法律工作而言,这种准确性的提升意味着客户可更放心地将更多实际律师工作交给它处理。

Katie Parrott 认为,与 Opus 4.7 相比,Claude Opus 4.8 像是一次重大的用户体验升级:速度更快,更易于协作,并且在长时间会话中更能保持上下文和风格指导。在需要兼顾语气、品味和技术执行的工作中,一直信赖 Opus 4.8。

Miguel Gonzalez 表示,Claude Opus 4.8 是测试过的最强的计算机使用和浏览器智能体模型,在 Online - Mind2Web 测试中得分 84%,相比 Opus 4.7 和 GPT - 5.5 有显著提升。它能够保持反思并专注于任务,满足客户智能体工作负载端到端的可靠性需求。

Scott Wu 称,Claude Opus 4.8 能干净利落地使用工具,并始终如一地遵循指令,这正是自主工程工作负载在无人值守运行时所需要的。它在 Opus 4.6 基础上改进,解决了 Opus 4.7 中遇到的注释冗长和工具调用问题,为基于 Devin 进行开发的工程师带来更快的能力提升。

Michael Ran 提到,在长期评估中,Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成速度更快,输出内容更丰富、信息更密集。总体而言,信噪比明显更高。最大的区别在于,Opus 4.8 倾向于主动标记分析输入和输出中的问题,而其他模型常常忽略这些问题,将其留给用户去发现。

Joel Hron 表示,在 CoCounsel Legal 测试中,与之前的 Opus 模型相比,Claude Opus 4.8 在一致性和推理质量方面有显著提升。对于客户依赖的高风险专业工作流程而言,这种可靠性至关重要。在为法律和税务专业人士构建信托级 AI 系统时,这样的进步有助于提高现实工作流程中可信 AI 性能的标准。

Hanlin Tang 称,Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 用于数据和知识工作的 AI 智能体 Genie 中,新的 Opus 模型使智能体推理能力实现质的飞跃,能比之前的 Opus 模型更快地处理更深入的多步骤问题。其多模态能力还使 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理,令牌成本比 Opus 4.7 降低了 61%。

Aabhas Sharma 提到,对于 Hebbia 编排器中的金融文档工作流程,Claude Opus 4.8 保持了与 Opus 4.7 相同的高质量,同时在引用精度和检索令牌效率方面有明显提升,这对于客户每天处理的密集文件非常适用。

5. Opus 4.8 的“诚实性”改进在哪?

Opus 4.8 最显著的改进之一是其“诚实性”。训练所有模型保持诚实,如避免提出无法支持的主张。但 AI 模型普遍存在有时仓促下结论,即使证据不足也自信声称在工作中取得进展的问题。早期测试人员报告称,Opus 4.8 更有可能标记其工作中的不确定性,并且不太可能提出无根据的主张。评估也证实了这一点,结果显示 Opus 4.8 对自己编写的代码中存在的缺陷未加标注的可能性比前代模型低约四倍。

6. 模型发布前有何评估?

和往常一样,在模型发布前进行了详细的对齐评估。对齐团队认为,从积极方面来看,Opus 4.8“在支持用户自主性和为用户利益行事等亲社会特征的衡量标准上达到了新高度”。评估还显示,Opus 4.8 的行为偏差率(如欺骗或配合不当使用)明显低于 Opus 4.7,与对齐效果最佳的模型 Claude Mythos Preview 相当。完整的对齐评估以及一系列部署前安全测试结果都记录在 Claude Opus 4.8 系统卡片中。

7. 今日同步发布了哪些更新?

除了 Claude Opus 4.8,还进行了以下更新:

动态工作流:这个新功能目前处于研究预览阶段,它使 Claude 在 Claude Code 中能够承担更大型的任务。Claude 可以规划工作,然后在单个会话中运行数百个并行子智能体(使用 Opus 4.8 时,智能体的运行时间可以更长)。在向用户报告结果之前,它会验证输出。例如,搭载 Opus 4.8 的 Claude Code 现在可以从启动到合并,完成数十万行代码的代码库级迁移,并且以现有的测试套件为标准。

[claude.ai] 和 Cowork 中的精力控制:模型选择器旁边新增了一个控制选项,允许用户选择 Claude 在回复时投入的精力。在高精力设置下,Claude 会更频繁、更深入地思考,以提供更好的回复;在低精力设置下,Claude 会更快地回复,并且更慢地消耗用户的速率限制。现在,所有套餐的用户都可以进行这种选择。

消息 API 现在支持在消息数组中接受系统条目:开发人员可以在任务进行中更新 Claude 的指令,而无需打破提示缓存或通过用户回合进行更新。在智能体运行时,这可以用于更新权限、令牌预算或环境上下文。

8. 关于精力设置有何说明?

Opus 4.8 默认采用高精力设置,认为这是在质量和用户体验之间取得的最佳平衡。在编码任务中,这个精力级别消耗的令牌数量与 Opus 4.7 的默认设置相近,但性能更优。用户可以选择“额外”(在 Claude Code 中为 “`xhigh`”)或“最大”设置,模型会消耗更多令牌以获得更好的结果;建议在处理困难任务和长时间异步工作流时使用“额外”设置。为了适应更高精力级别下更高的令牌使用量,提高了 Claude Code 的速率限制;用户可以根据自己的具体项目选择合适的设置。

9. 未来有哪些规划?

用户会发现 Opus 4.8 相比前代模型有适度但显著的改进。还有更多工作要做:正在努力开发和发布成本更低但具备 Opus 诸多相同功能的模型。不仅如此,计划发布一类比 Opus 智能水平更高的新模型。作为玻璃翼项目的一部分,目前有少数组织正在将 Claude Mythos Preview 用于网络安全工作。这类高能力模型在广泛发布之前需要更强大的网络安全保障措施。正在迅速推进这些保障措施的开发,预计在未来几周内能够将 Mythos 级别的模型提供给所有客户。

10. 可用性如何?

Claude Opus 4.8 即日起在所有平台可用。常规使用的定价与 Opus 4.7 相同:每百万输入令牌 5 美元,每百万输出令牌 25 美元。快速模式的定价为每百万输入令牌 10 美元,每百万输出令牌 50 美元。开发人员可以通过 Claude API 使用 `claude-opus-4-8`。

11. 脚注内容有哪些?

Terminal - Bench 2.1:使用 Terminus - 2 公共测试框架报告了所有模型的得分。GPT - 5.5 使用 Codex CLI 测试框架的报告得分是 83.4%。

OSWorld - Verified:为了更准确地反映模型在现实世界中的性能,对 OSWorld - Verified 评估的运行方式进行了更改,并将 Opus 4.7 的得分更新为 82.3%。

Finance Agent v2:Gemini 3.5 Flash 在 Finance Agent v2 测试中得分 57.9%,相比 Gemini 3.1 Pro 有显著提升。

12. 相关内容有哪些?

Anthropic 以 9650 亿美元的投后估值完成 650 亿美元的 H 轮融资。

Anthropic 在米兰开设办事处,支持意大利企业、研究和开发人员。

Anthropic 在首尔办事处开业前任命 KiYoung Choi 为韩国代表董事。

产品包括 Claude、Claude Code、Claude Code 企业版、Claude Cowork、Claude 安全版、Claude for Chrome、Claude for Slack、Claude for Microsoft 365、技能、Max 套餐、团队套餐、企业套餐、下载应用、定价、登录 Claude。

模型包括 Mythos 预览版、Opus、Sonnet、Haiku。

解决方案包括 AI 智能体、代码现代化、编码、客户支持、教育、金融服务、政府、医疗保健、法律、生命科学、非营利组织、安全、小企业。

Claude 平台包括概述、开发人员文档、定价、市场、区域合规、Claude on AWS、Google Cloud 的 Vertex AI、Microsoft Foundry、控制台登录。

资源包括博客、Claude 合作伙伴网络、社区、连接器、课程、客户案例、Anthropic 的工程团队、活动、深入了解 Claude Code、深入了解 Claude Cowork、深入了解 Claude 企业版、深入了解 Claude 安全版、插件、由 Claude 提供支持、服务合作伙伴、创业公司计划、教程、用例。

帮助与安全包括可用地区、状态、支持中心。

公司包括 Anthropic、职业机会、经济前景、研究、新闻、Claude 宪章、负责任的扩展政策、安全与合规、透明度。

条款与政策包括隐私政策、消费者健康数据隐私政策、负责任的披露政策、商业服务条款、消费者服务条款、使用政策。

http://www.jsqmd.com/news/914842/

相关文章:

  • Ubuntu 20.04 上 CP2K 2023.2 保姆级安装指南:从 MKL 配置到编译测试一次搞定
  • MATLAB交通视频车辆计数+实时折线图生成(含测试视频和GUI界面)
  • 别再只用rand()了!C++里用std::mt19937生成高质量随机数的保姆级教程
  • STM32F103实时ADC采样+1024点FFT频谱分析,串口输出原始幅值数据
  • 2026年毕业论文亲测:为降低AI率,我试了这5款工具(附真实避坑) - 降AI实验室
  • Windows 10/11远程管理AD域控:不用RDP,用官方RSAT工具实现高效运维
  • Cocos Creator 《打螺丝消除小游戏》完整源码+逻辑详解
  • 人机共进化:从概念到实践,构建双向增强的智能协作系统
  • Unity 2019+ 项目实战:用UMP插件搞定海康威视摄像头实时画面(附避坑指南)
  • 手把手教你用QEMU模拟器搭建Arm Trustzone开发环境(ATF+OP-TEE实战)
  • 全面战争模组制作终极指南:RPFM完整使用教程
  • 别再手动扫码了!用C#写个程序,让海康机器人扫码枪自动干活(TCP/串口双协议详解)
  • 2026年4月头部智慧泵房直销厂家推荐,离心泵/不锈钢无负压供水设备/变频控制柜,智慧泵房制造厂家口碑推荐 - 品牌推荐师
  • 2026年苏州智能停车道闸公司口碑推荐榜:停车道闸、车牌识别停车道闸、无人值守停车道闸、自动停车道闸、弱电工程服务商选择指南,施工工艺、设备品质、售后运维三维度全面解析 - 海棠依旧大
  • 海量数据精准检索:从索引优化到异常检测的工程实践
  • 收藏必备!小白程序员必看:轻松入门大模型意图识别技术(附五代演进详解)
  • 保姆级教程:中兴B860AV1.1-T NAND版刷Armbian,从拆机短接到写入EMMC全流程避坑
  • 2026年靠谱天津本地烟道清/厨房排烟管道清洗/油烟净化器清理/后厨排烟系统维保正规服务商家推荐 - 海棠依旧大
  • 2026年AI编码平台全角色深度实测:12款工具覆盖学生到架构师的真实生产力解析
  • GD32F103 ADC采样时,LM358输出为啥会飘?一个硬件工程师的踩坑实录
  • 哪家北京劳动律师专业?2026年5月推荐TOP10对比仲裁败诉翻盘评测适用场景注意事项 - 品牌推荐
  • 从水果店到SoC:用生活化比喻彻底搞懂APB和AHB总线协议
  • MATLAB RBF插值参数调优避坑指南:作用半径、误差项与多项式项到底怎么设?
  • Arm CoreSight调试中TPIU时钟关闭与ATB流控制实践
  • Windows文件系统冷知识:除了给VSCode插件搬家,mklink命令还能这样玩
  • 2026年|论文AIGC率爆表怎么办?保姆级免费降AI实战教程(附降重全流程,亲测有效) - 降AI实验室
  • 从CPU缓存视角看Zynq MPSOC:ACP直连L2,HPC过CCI,到底谁更快?
  • 2026成都藏在巷子里的私房川菜馆,真实体验感究竟如何?
  • 超越简单数据增强:用IA-YOLO的‘混合训练’策略,让你的检测模型无惧雨雾与黑夜
  • TI CCS工程编译后,如何正确配置Post-build步骤生成可烧录的bin文件?(以IWR6843AOP为例)