当前位置: 首页 > news >正文

Anthropic官方最新的演讲,给火了一年的Agent浇了冷水

1. 引言:智能体时代的“冷思考”

在 Anthropic 最近的一次技术分享中,Barry 和 Mahesh 对过去一年火热的“智能体”浪潮提出了冷静的技术审视。尽管 AI 的通用智力(Intelligence)在不断攀升,但在真实的生产环境里,开发者们依然面临着巨大的“鸿沟”:智能体固然聪明且具备通用能力,但往往缺乏完成专业工作所需的深度专家知识(Expertise)

目前的行业惯性是为每一个细分领域(如财务、代码、税务)构建完全独立的智能体,包含特定的 Scaffolding(脚手架)和工具集。然而,Anthropic 明确指出,这种碎片化的开发模式正迎来终结。我们正在见证一种全新的范式转型:从“为每个用例构建独立智能体”转向“构建通用智能体 + 可组合技能库(Skills Library)”。


2. 现状分析:当前智能体模式的局限性

Anthropic 通过深度剖析发现,现有智能体架构在迈向专业化时存在三个核心技术瓶颈:

  1. 智商高但缺乏专业积淀 (Mahesh vs. Barry 案例):想象一个智商高达 300 的天才 Mahesh 和一位经验丰富的税务专家 Barry。在处理 2025 年复杂的税法时,即便是天才也难以在短时间内从第一性原理(First Principles)推导并准确执行每一项细则。我们需要的是像 Barry 这样具备“一致性执行力”的专家,而非让模型去盲目尝试“创意推导”。目前的智能体大多像 Mahesh——聪明绝顶,但在专业流程面前缺乏经验。
  2. 缺乏上下文记忆与演进能力:智能体难以像人类专家那样随着时间的推移不断吸收和固化经验。目前的架构导致它们在处理每个新任务时都像是在“冷启动”,无法将过去的成功经验沉淀为可复用的资产。
  3. 传统工具 (Tools) 的技术瓶颈:现有的 Tool Calling 机制(基于 JSON 定义)存在指令模糊、不可实时修改的缺陷。更关键的是,为了让智能体理解如何调用工具,开发者必须在 Prompt 中塞入大量的操作说明,这不仅造成了严重的“冷启动问题”(Cold start problem),还极大地消耗了宝贵的上下文窗口资源。

维度

理想的专家型智能体

现实中笨拙的智能体(现状)

知识获取

具备预包装的程序化知识与经验

依赖通用推理,缺乏特定领域深度

执行一致性

遵循行业最佳实践,输出高度稳定

随机性强,容易从第一性原理盲目推演

资源效率

技能按需动态加载

陷入Cold Start Problem,被迫在 Prompt 中堆砌工具说明

可扩展性

技能可版本化,在团队间无缝迁移

每个新用例都需要重新编写复杂的 Scaffolding


3. 定义“技能” (Skills):一种全新的组件化方案

为了打破上述局限,Anthropic 提出了“技能”这一标准化组件。它不再是松散的代码片段,而是一种结构化的数字资产。

  • 物理形态:技能本质上是包含文件、脚本和元数据的文件夹(Folders)
  • 核心优势:这种基于文件系统的原始设计赋予了技能极强的灵活性。它支持使用Git进行版本控制,并能通过 Google Drive 或 Zip 包在团队内部甚至跨组织共享
  • 脚本即工具:“代码是数字世界的通用接口”。技能将脚本(如 Python/Bash)作为工具载体。相比于描述模糊的传统 API 定义,脚本具有自文档化可修改性,能够让智能体通过运行脚本实现高度精确的操作逻辑。
  • 渐进式披露 (Progressive Disclosure):这是一种关键的上下文窗口优化策略。系统在初始运行时仅向模型展示极简的元数据(Metadata),只有当模型判断需要调用特定技能时,才会读取skill.md及相关指令。这种机制允许智能体在不撑爆上下文的前提下,同时拥有挂载成百上千种技能的可能性。

4. 架构重塑:通用智能体与运行时环境

Anthropic 正在重定义智能体的基本公式:Agent = Model + Runtime Environment

在这种架构下,AI 不再需要为每个领域单独定制复杂的框架,其核心脚手架已经简化为极其轻量级的 Bash 环境与文件系统。

“我们认为,代码就是我们所需要的一切 (Code is all we need)。”

以新发布的Claude Code为例,它证明了一个通用智能体只要具备了对文件系统的读写权和代码执行权,就能通过调用 API 获取数据、用 Python 进行数据分析、并利用文件系统组织结果。这种“以代码为接口”的设计使得智能体具备了极强的通用扩展性。

三位一体协作模式:

  • 智能体循环 (Agent Loop):核心大脑,负责管理上下文流转与 Token 消耗。
  • MCP (Model Context Protocol) 服务器:提供连接性,负责打通外部数据源。
  • 技能库 (Skills Library):提供专业知识,负责沉淀执行逻辑与业务流程。

5. 技能生态系统:从基础到企业级应用

目前,这一生态已衍生出三种层次的专业能力:

  • 基础技能 (Foundational Skills):由 Anthropic 等厂商提供,赋予智能体通用专长。例如,“文档处理技能”让 Claude 具备了创建和编辑专业 Office 文档的能力;而Cadence开发的“科学研究技能”,则让 Claude 能够熟练进行 EHR 医疗数据分析,并更高效地调用 Python 生物信息学库。
  • 第三方技能 (Third-party Skills):软件供应商为自家产品定制的增强包。Browserbase推出了基于 Stagehand 的浏览器自动化技能,显著提升了 Claude 在网页导航中的精度;Notion发布的技能则让智能体能深度理解用户整个 Workspace 的逻辑,实现跨文档的深度研究。
  • 企业特有技能 (Enterprise Skills):这是最具商业价值的领域。Fortune 100 企业正在将内部的“最佳实践”和针对专有软件的操作流程打包成技能。大型开发效率团队(Developer Productivity Teams)也正利用技能来部署内部的代码规范和协作逻辑,让 Claude Code 能够像入职多年的“老员工”一样遵循特定的技术风格。

6. 未来趋势:去中心化与复杂化

Anthropic 对技能生态的演进提出了三个关键预判:

  1. 技能的复杂性演进:技能将从简单的 Markdown 提示词,演变为包含二进制执行程序、复杂代码库和脚本资产的复合体。构建一个高质量技能的周期,将从几分钟延长至数周甚至数月,这本质上是将 AI 的能力维护转向了传统软件维护的成熟路径
  2. 与 MCP 的深度协同:明确的分工已经形成:MCP 提供连接(Connection),而技能提供专业知识(Expertise)。开发者将使用技能来编排多个 MCP 工具,形成复杂的自动化工作流。
  3. 非技术人员的参与:技能大幅降低了“专业知识自动化”的门槛。财务、法律、招募等非技术职能人员,可以通过整理业务指令文件夹,将自己的行业经验打包。这种“非代码工作者的扩展能力”将是 AI 规模化落地的关键标志。

7. 结论:开启 AI 规模化应用的新篇章

从“构建孤立智能体”到“构建模块化技能”的范式转移,标志着 AI 开发正从“手工作坊”迈向“工业化流水线”。这种“简单而深远”的设计,让任何人只要拥有计算机,就能通过标准化的文件夹结构赋予 AI 专业能力。

这一变革不仅解决了智能体的冷启动与上下文限制问题,更重要的是,它提供了一套让 AI 持续学习和积累人类专家经验的架构标准。未来,通用的智能体将通过不断加载全球技能库,真正化身为跨行业的资深专家。

http://www.jsqmd.com/news/1103160/

相关文章:

  • 工业物联网安全通信方案:A5000与TM4C129EKCPDT实战
  • 让旧电视焕发新生:Android原生直播应用的技术重生之路
  • 想找质量好的防水土工膜供应商?这里有你要的答案!
  • SurrealDB:一个数据库搞定所有数据模型
  • 终极PS3游戏更新下载方案:三步获取官方补丁的完整指南
  • QCMA:开源跨平台PS Vita内容管理解决方案的技术架构与实践指南
  • 低门槛搭建高转化圈子社群小程序:Uniapp 多端快速上线,同城 / 兴趣 / 行业圈:多端适配运营级源码!
  • 如何用绝区零一条龙自动化工具3步解放双手:终极指南
  • 陪诊系统源码解析:预约下单 + 接单派单全业务流程
  • 大模型幻觉率实测报告(2024Q2):ChatGPT-4o vs 文心一言4.5,在金融合规问答、政务公文生成、医疗术语推理中的错误率差异达47.3%(独家脱敏数据)
  • 微信打视频怎么开美颜? 苹果手机微信美颜功能在哪里打开的?
  • 清关进度怎么实时查?义方天地这套系统给出答案
  • VLC鼠标点击暂停插件:重新定义视频播放控制体验
  • 小说下载器:如何用这个神奇工具拯救你即将消失的阅读记忆
  • 5步掌握Sollumz:Blender中创建GTA V模型的终极免费插件
  • 计算机毕业设计之基于人工智能的飞机航迹预测系统设计与实现
  • 140+上岸江苏:如果你也正在公考路上挣扎,这篇是我的“避坑指南”
  • #2026深度实测:个人AI编程软件选择,vibe coding实战全指南
  • 计算机毕业设计之基于情感分析的社交媒体舆情监控系统
  • 1小时应急响应:1-Day漏洞快速定位与实战指南
  • 从Next-Token到Next-State的世界模型
  • GEO优化:中小企业低成本破局,精准获客不烧钱的核心秘籍
  • 自动皂液器传感器方案:WT4002B的低功耗实战
  • 抖音下载器完全指南:双版本架构实现高效无水印内容保存
  • IMU与MCU协同设计实现高精度6DoF运动追踪
  • 抖音批量下载神器:三分钟搞定无水印视频保存
  • 【JAVA毕设源码分享】基于springboot餐饮连锁销售信息管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 基于Gost构建三层代理内网渗透环境:从原理到实战
  • AI时代FDE体系-让企业CRM+AI真正成功落地
  • 九大网盘直链下载神器:LinkSwift 全平台下载体验升级指南