当前位置：首页 > news >正文

Sonnet 5能自主用浏览器和终端了，Agent AI的临界点到了

news 2026/7/2 12:14:20

6月30日，Anthropic发布了Claude Sonnet 5。

官方的说法是："迄今最具Agent能力的Sonnet模型"。具体来说：它能自己制定计划、打开浏览器查信息、调终端跑命令、中途发现不对会停下纠正——不用人在旁边盯着。

我看了系统卡里的数据，用几个关键数字说清楚它到底强在哪。

数据怎么说

先把Sonnet 5和旗舰Opus 4.8拉出来对比：

Agent搜索评测 BrowseComp：Sonnet 5 拿了 84.7%，Anthropic官方标注为"与Opus 4.8在同等任务成本下相当"。这个评测测的是模型自主上网搜索、跨页面整合信息的能力——Agent场景的核心能力。

计算机使用评测 OSWorld-Verified：Sonnet 5 81.2%，Opus 4.8 83.4%。差距只有2.2个百分点。这个评测是让模型在真实操作系统里操作软件完成任务——打开应用、填表单、处理文件。

SWE-bench Verified（真实代码修复）：Sonnet 5 85.2%，Opus 4.8 88.6%，差3.4个百分点。

HLE带工具（高难度知识推理+工具辅助）：Sonnet 5 57.4，Opus 4.8 57.9——基本持平，差0.5。

还有一个有意思的：Terminal-Bench 2.1，测的是命令行操作能力。Sonnet 5 80.4，Opus 4.8 74.6——Sonnet反超了5.8个百分点。

定价方面：Sonnet 5 标准价输入3/百万token、输出3/百万token、输出15/百万token。8月31日前推广价是2和2和10。作为对比，Opus 4.8 是5和5和25。Agent能力摸到了旗舰级的边，价格便宜了40%-60%。

安全方面，Anthropic的系统卡写了：整体不良行为频率低于Sonnet 4.6，幻觉和迎合性明显改善，拒绝恶意请求的能力更强了。

"Agent"这个词终于不是PPT词汇了

过去两年行业聊"Agent"聊了很多，但大部分时候它就是一张PPT上的概念。Sonnet 5 给这个词填上了具体的画面。

你给它一个目标——"帮我调研三家云服务商的GPU实例价格，做成对比表"——它不需要你逐步引导。它会自己决定先搜什么、再搜什么，打开每个页面读关键信息，整理成表。中间某个页面打不开，它会换一个来源。

这跟以前"你问一句我答一句"的模式有本质区别。是"你给目标我跑全程"。

消息一出，开发者社区的反馈很直接。Reddit和X上有人拿它跑SWE-bench工程任务，有人让它自己从零搭了一个网页爬虫。大家关心的不是"生成质量好不好"——这个早就不是瓶颈了——而是"它能不能自己动手干活"。答案正在变。

但产品化还有一个gap

Sonnet 5 把Agent能力推到新高度，这毫无疑问。但有一点需要理清楚：一个模型能干Agent任务，和一个团队能做出生产级的Agent产品，中间还有距离。

第一，你不会只用Sonnet 5。实际做Agent产品时，信息采集用轻量模型、复杂推理用Sonnet 5级别、某些环节用本地部署的开源模型——这是常规操作。多模型协同不是锦上添花，是工程层面的基本要求。

第二，Agent产品不是"调个API就完事"。你需要工具集成层（浏览器、终端、数据库、外部API）、对话状态管理、任务编排、错误兜底、输出格式化。Sonnet 5解决了"脑子"的问题，但一个完整的Agent产品还需要"手"和"骨骼"。

这也是为什么多模型平台和Agent开发平台越来越有价值。底层模型调度上，魔芋AI把国内外主流模型的API统一接好了——Sonnet 5可以做主力推理，其他环节按需切换不同模型，不用挨个对接。还有魔芋企业AI网关帮你管控token用量，防止月底账单大爆炸。

魔芋AI大模型网关I全球大模型一站式调用及服务平台魔芋AI大模型聚合平台（大模型网关平台）专注于提供高效能、低成本的多品类 AI 模型服务，助力开发者和企业聚焦产品创新。https://www.moyu.info/register?aff=zFsq

往上，RaaS100 AI社区把Agent产品的通用框架——工具集成、对话管理、任务编排、输出渲染——封装成了开箱即用的能力，平台上已经有头脑风暴智能体、万智测评、KyDI智能体等在跑的产品，社区宗旨是：让企业用好AI，让开发者卖好产品。如果你也感兴趣，欢迎进群我们一起探讨一下！

说白了：Sonnet 5证明了Agent AI从技术上已经ready。魔芋AI让你不被单一模型绑死。RaaS100让你省掉从零搭Agent框架的重复劳动。

一句总结

Sonnet 5 的意义不是说"又发了一个更强的模型"。是Agent AI从"模型能力够不够"的阶段，跨进了"产品能做到多快、多稳、多便宜"的阶段。

接下来的竞争，不在于你有没有最强的单模型。在于你能不能把模型、工具、工作流、交互体验快速串成一条线，在一个具体的场景里跑起来。

查看全文

http://www.jsqmd.com/news/1108775/

嵌入式EEPROM应用：M95M02与PIC18LF46K40的SPI通信优化

简历自我评价别再写“积极向上“了！实测6款AI工具，3分钟生成HR想看的版本

KLayout完整指南：从零开始掌握专业版图设计与验证

Claude Code vs Copilot vs Cursor：三款顶级 AI 编程工具的实测对比与场景化选型

三步解锁WeMod Pro：Wand-Enhancer开源增强工具全攻略

一次陪家人看牙的简单记录

新手如何用skills

ComfyUI-Manager：3步打造你的AI绘画工作流管理神器

国学语录可用 API 接口（分三类：无需 KEY 免费、平台付费古籍、本地自建）

魔兽争霸3现代化改造指南：让你的经典RTS游戏重获新生

不想数据过第三方服务器？本地开源 AI 网关 OmniRoute，自动调度大模型API

Wand-Enhancer终极指南：如何免费解锁WeMod完整功能的5大技巧

题解：洛谷 B4500 [GESP202603 三级] 凯撒密码

儿童近视防控眼科机构咋选择

2026超一线城市小程序开发公司深度评测:定制开发、交付能力与企业口碑全景解析，含零代码SAAS、AI编程、源码定制

5大核心优化技巧：让老旧Android电视流畅播放高清直播的终极方案

从Kali工具使用到EXP开发：安全测试源码分析与实战指南

6款实用AI降重软件推荐，合规改写不踩学术红线

被问到为何中间有一段长达半年的求职空窗期？留学生用积极事实消除疑虑「蒸汽求职分享」

腾讯会议多端接入音视频稳定技术方案

修复WSL2的PATH变量：解决交叉编译RK3506环境问题的首选方案

ICM-42688-P与PIC18F2680在运动控制与传感融合中的应用

如何使用C++标准输入流cin读取字符串？

【Vibe Coding从入门到精通】第13篇：团队协作中的Vibe Coding——从个人利器到团队武器

构建小程序全自动安全审计体系：从原理到实践

为什么机电维修师傅都在换 18KV 塑钢头绝缘鞋？轻便防护两不误

2026年中盘点：什么八字排盘软件好用？第三方测评拆到排盘底层

OpenCore Legacy Patcher：让旧Mac重获新生，体验最新macOS的终极指南

CRM系统通俗讲解，一文理清客户管理工具全部知识

惠普tank1005,tank2606,tank2604,tank1020开机报错ER08闪黄灯，加了2包粉问题没有修好，最终解决方法是通过er08清除软件修好，几分钟就自己修好了，省480元维修费

数据怎么说

"Agent"这个词终于不是PPT词汇了

但产品化还有一个gap

相关文章：