当前位置: 首页 > news >正文

Sonnet 5能自主用浏览器和终端了,Agent AI的临界点到了

6月30日,Anthropic发布了Claude Sonnet 5。

官方的说法是:"迄今最具Agent能力的Sonnet模型"。具体来说:它能自己制定计划、打开浏览器查信息、调终端跑命令、中途发现不对会停下纠正——不用人在旁边盯着。

我看了系统卡里的数据,用几个关键数字说清楚它到底强在哪。


数据怎么说

先把Sonnet 5和旗舰Opus 4.8拉出来对比:

Agent搜索评测 BrowseComp:Sonnet 5 拿了 84.7%,Anthropic官方标注为"与Opus 4.8在同等任务成本下相当"。这个评测测的是模型自主上网搜索、跨页面整合信息的能力——Agent场景的核心能力。

计算机使用评测 OSWorld-Verified:Sonnet 5 81.2%,Opus 4.8 83.4%。差距只有2.2个百分点。这个评测是让模型在真实操作系统里操作软件完成任务——打开应用、填表单、处理文件。

SWE-bench Verified(真实代码修复):Sonnet 5 85.2%,Opus 4.8 88.6%,差3.4个百分点。

HLE带工具(高难度知识推理+工具辅助):Sonnet 5 57.4,Opus 4.8 57.9——基本持平,差0.5。

还有一个有意思的:Terminal-Bench 2.1,测的是命令行操作能力。Sonnet 5 80.4,Opus 4.8 74.6——Sonnet反超了5.8个百分点。

定价方面:Sonnet 5 标准价输入3/百万token、输出3/百万token、输出15/百万token。8月31日前推广价是2和2和10。作为对比,Opus 4.8 是5和5和25。Agent能力摸到了旗舰级的边,价格便宜了40%-60%。

安全方面,Anthropic的系统卡写了:整体不良行为频率低于Sonnet 4.6,幻觉和迎合性明显改善,拒绝恶意请求的能力更强了。


"Agent"这个词终于不是PPT词汇了

过去两年行业聊"Agent"聊了很多,但大部分时候它就是一张PPT上的概念。Sonnet 5 给这个词填上了具体的画面。

你给它一个目标——"帮我调研三家云服务商的GPU实例价格,做成对比表"——它不需要你逐步引导。它会自己决定先搜什么、再搜什么,打开每个页面读关键信息,整理成表。中间某个页面打不开,它会换一个来源。

这跟以前"你问一句我答一句"的模式有本质区别。是"你给目标我跑全程"。

消息一出,开发者社区的反馈很直接。Reddit和X上有人拿它跑SWE-bench工程任务,有人让它自己从零搭了一个网页爬虫。大家关心的不是"生成质量好不好"——这个早就不是瓶颈了——而是"它能不能自己动手干活"。答案正在变。


但产品化还有一个gap

Sonnet 5 把Agent能力推到新高度,这毫无疑问。但有一点需要理清楚:一个模型能干Agent任务,和一个团队能做出生产级的Agent产品,中间还有距离。

第一,你不会只用Sonnet 5。实际做Agent产品时,信息采集用轻量模型、复杂推理用Sonnet 5级别、某些环节用本地部署的开源模型——这是常规操作。多模型协同不是锦上添花,是工程层面的基本要求。

第二,Agent产品不是"调个API就完事"。你需要工具集成层(浏览器、终端、数据库、外部API)、对话状态管理、任务编排、错误兜底、输出格式化。Sonnet 5解决了"脑子"的问题,但一个完整的Agent产品还需要"手"和"骨骼"。

这也是为什么多模型平台和Agent开发平台越来越有价值。底层模型调度上,魔芋AI把国内外主流模型的API统一接好了——Sonnet 5可以做主力推理,其他环节按需切换不同模型,不用挨个对接。还有魔芋企业AI网关帮你管控token用量,防止月底账单大爆炸。

魔芋AI大模型网关I全球大模型一站式调用及服务平台魔芋AI大模型聚合平台(大模型网关平台)专注于提供高效能、低成本的多品类 AI 模型服务,助力开发者和企业聚焦产品创新。https://www.moyu.info/register?aff=zFsq

往上,RaaS100 AI社区把Agent产品的通用框架——工具集成、对话管理、任务编排、输出渲染——封装成了开箱即用的能力,平台上已经有头脑风暴智能体、万智测评、KyDI智能体等在跑的产品,社区宗旨是:让企业用好AI,让开发者卖好产品。如果你也感兴趣,欢迎进群我们一起探讨一下!

说白了:Sonnet 5证明了Agent AI从技术上已经ready。魔芋AI让你不被单一模型绑死。RaaS100让你省掉从零搭Agent框架的重复劳动。


一句总结

Sonnet 5 的意义不是说"又发了一个更强的模型"。是Agent AI从"模型能力够不够"的阶段,跨进了"产品能做到多快、多稳、多便宜"的阶段。

接下来的竞争,不在于你有没有最强的单模型。在于你能不能把模型、工具、工作流、交互体验快速串成一条线,在一个具体的场景里跑起来。

http://www.jsqmd.com/news/1108775/

相关文章:

  • 嵌入式EEPROM应用:M95M02与PIC18LF46K40的SPI通信优化
  • 简历自我评价别再写“积极向上“了!实测6款AI工具,3分钟生成HR想看的版本
  • KLayout完整指南:从零开始掌握专业版图设计与验证
  • Claude Code vs Copilot vs Cursor:三款顶级 AI 编程工具的实测对比与场景化选型
  • 三步解锁WeMod Pro:Wand-Enhancer开源增强工具全攻略
  • 一次陪家人看牙的简单记录
  • 新手如何用skills
  • ComfyUI-Manager:3步打造你的AI绘画工作流管理神器
  • 国学语录可用 API 接口(分三类:无需 KEY 免费、平台付费古籍、本地自建)
  • 魔兽争霸3现代化改造指南:让你的经典RTS游戏重获新生
  • 不想数据过第三方服务器?本地开源 AI 网关 OmniRoute,自动调度大模型API
  • Wand-Enhancer终极指南:如何免费解锁WeMod完整功能的5大技巧
  • 题解:洛谷 B4500 [GESP202603 三级] 凯撒密码
  • 儿童近视防控眼科机构咋选择
  • 2026超一线城市小程序开发公司深度评测:定制开发、交付能力与企业口碑全景解析,含零代码SAAS、AI编程、源码定制
  • 5大核心优化技巧:让老旧Android电视流畅播放高清直播的终极方案
  • 从Kali工具使用到EXP开发:安全测试源码分析与实战指南
  • 6款实用AI降重软件推荐,合规改写不踩学术红线
  • 被问到为何中间有一段长达半年的求职空窗期?留学生用积极事实消除疑虑「蒸汽求职分享」
  • 腾讯会议多端接入音视频稳定技术方案
  • 修复WSL2的PATH变量:解决交叉编译RK3506环境问题的首选方案
  • ICM-42688-P与PIC18F2680在运动控制与传感融合中的应用
  • 如何使用C++标准输入流cin读取字符串?
  • 【Vibe Coding从入门到精通】第13篇:团队协作中的Vibe Coding——从个人利器到团队武器
  • 构建小程序全自动安全审计体系:从原理到实践
  • 为什么机电维修师傅都在换 18KV 塑钢头绝缘鞋?轻便防护两不误
  • 2026年中盘点:什么八字排盘软件好用?第三方测评拆到排盘底层
  • OpenCore Legacy Patcher:让旧Mac重获新生,体验最新macOS的终极指南
  • CRM系统通俗讲解,一文理清客户管理工具全部知识
  • 惠普tank1005,tank2606,tank2604,tank1020开机报错ER08闪黄灯,加了2包粉问题没有修好,最终解决方法是通过er08清除软件修好 ,几分钟就自己修好了,省480元维修费