当前位置: 首页 > news >正文

多 Agent 协作系统:Anthropic 的实战经验

多 Agent 协作系统:Anthropic 的实战经验

原文:How we built our multi-agent research system | Anthropic Engineering Blog | 2025.6.13

导语

Claude 的研究功能背后,是一个完整的多 Agent 协作系统。首席 Agent 负责规划,多个子 Agent 并行搜索,最后汇总生成带引用的研究报告。

这篇文章是 Anthropic 的实战经验分享——从原型到生产的全过程,包括架构设计、提示工程、评估方法和生产可靠性。


一、为什么需要多 Agent

研究任务的特殊性

  • 开放式问题,无法预测所需步骤
  • 需要根据发现动态调整策略
  • 信息量可能远超单个上下文窗口

多 Agent 的优势

  • 并行压缩:子 Agent 在各自的上下文窗口中并行操作,将海量信息压缩后返回
  • 关注点分离:每个子 Agent 有独特的工具、提示和探索轨迹
  • 超越个体限制:就像人类社会通过协作超越个体能力

性能数据

  • 多 Agent 系统(Opus 4 首席 + Sonnet 4 子 Agent)在研究评估中比单 Agent Opus 4 高出 90.2%
  • 仅 token 使用量就解释了 BrowseComp 评估中 80% 的性能差异

二、系统架构

协调器-工作器模式

用户查询 → 首席研究 Agent├── 子 Agent 1 (搜索方向 A)├── 子 Agent 2 (搜索方向 B)└── 子 Agent 3 (搜索方向 C)↓首席 Agent 综合结果↓引文 Agent 处理来源↓最终研究报告

关键设计

  • 首席 Agent 将计划保存到内存(上下文窗口超过 200K tokens 时会被截断)
  • 子 Agent 独立执行搜索,使用交错思考评估结果
  • 引文 Agent 确保所有声明正确归因到来源

三、八条提示工程原则

1. 像你的 Agent 一样思考

在控制台中构建模拟,使用完全相同的提示和工具,逐步观察 Agent 工作。

2. 教导协调器如何委派

每个子 Agent 需要:明确的目标、输出格式、工具使用指导和任务边界。简短的指令(如"研究半导体短缺")会导致重复工作。

3. 将规模扩展到查询复杂性

  • 简单事实查找:1 个 Agent,3-10 次工具调用
  • 直接比较:2-4 个子 Agent
  • 复杂研究:10+ 个子 Agent

4. 工具设计至关重要

给 Agent 明确的启发式方法:先检查所有可用工具,将工具与用户意图匹配。

5. 让 Agent 自我完善

Claude 4 可以成为出色的提示工程师。一个"工具测试 Agent"通过几十次测试发现了关键的工具缺陷,改进后任务完成时间减少了 40%

6. 先宽后窄

Agent 默认使用过于冗长的查询。提示 Agent 以简短、宽泛的查询开始,逐渐缩小焦点。

7. 引导思考过程

扩展思考让首席 Agent 规划方法,子 Agent 用交错思考评估工具结果质量。

8. 并行工具调用

引入并行化后,研究时间减少了多达 90%


四、评估方法

小样本快速启动

不需要数百个任务,20 个代表性查询就是很好的开始。

LLM-as-Judge

使用 LLM 评判器根据标准评估输出:事实准确性、引文准确性、完整性、来源质量、工具效率。

人工评估不可替代

人类测试者发现了 Agent 持续选择 SEO 优化的内容农场而非权威来源的偏差。


五、生产可靠性

Agent 是有状态的,错误会累积

构建可以从错误中恢复的系统,让 Agent 知道工具何时失败并适应。

调试需要新方法

添加完整的生产跟踪,监控 Agent 决策模式和交互结构。

部署需要仔细协调

使用彩虹部署,逐渐将流量从旧版本转移到新版本。


六、Token 经济学

类型 Token 使用量(相对聊天)
普通聊天 1x
单 Agent 4x
多 Agent 15x

多 Agent 系统需要任务价值足够高以支付增加的成本。


读后感

这篇文章最令人震撼的数据是:仅 token 使用量就解释了 80% 的性能差异。

这意味着多 Agent 的核心价值不是"更聪明",而是"能处理更多信息"。本质上,多 Agent 是一种扩展计算资源的方式。


本文是 Anthropic AI Agent 系列 第 10 篇,共 15 篇。下一篇:MCP 代码执行:构建更高效的 Agent

关注公众号 coft 获取系列更新。

http://www.jsqmd.com/news/395945/

相关文章:

  • SenseVoice Small部署教程:NVIDIA Container Toolkit集成配置指南
  • 2026年知名的职业生涯规划评估系统/职业生涯规划设备热门推荐 - 品牌宣传支持者
  • MCP 代码执行:构建更高效的 Agent
  • OFA图像语义蕴含模型部署教程:GPU利用率监控与batch size调优指南
  • ERNIE-4.5-0.3B-PT部署避坑:解决‘model not found’、‘out of memory’高频问题
  • 如何设计一个支持地理空间查询(Geo-spatial Query)的数据库索引?
  • 小白必看:Pi0机器人控制中心快速部署指南
  • 阿里开源图片旋转判断:快速解决图片角度问题
  • 2026年知名的柜内香氛五金/家用香氛五金工厂采购指南如何选(实用) - 品牌宣传支持者
  • Python 配置管理的哲学、范式与现代实践:超越 config.ini
  • 深度学习项目训练环境:一键安装与模型训练指南
  • MySQL性能优化:慢查询分析与SQL调优实战
  • 阿里小云KWS模型的多唤醒词识别技术实践
  • 文墨共鸣惊艳效果:朱砂印从‘云泥之别’到‘异曲同工’的渐变视觉动效
  • HY-Motion 1.0动作数据增强算法解析
  • JVM内存模型:深入理解堆内存与元空间
  • 分布式系统CAP理论与BASE理论详解
  • 2026年口碑好的高速贴标机/在线打印贴标机供应商采购指南选哪家 - 品牌宣传支持者
  • 夜红外图像无人机检测数据集VOC+YOLO格式1963张1类别
  • 2026年热门的彩印包装展示箱/彩印包装礼品箱哪家质量好厂家实力参考 - 品牌宣传支持者
  • 2026年质量好的医用护理床/家庭护理床品牌厂家推荐哪家强 - 品牌宣传支持者
  • 快速体验:Qwen3-ASR-0.6B语音识别效果展示
  • Banana Vision Studio快速体验:无需专业技能的设计工具
  • 5分钟搭建LLM API管理平台:支持ChatGLM/文心一言等主流模型
  • 从零开始学GTE模型:文本嵌入技术入门指南
  • 2026年靠谱的入户门智能门锁/源头工厂智能门锁制造厂家实力参考哪家专业 - 品牌宣传支持者
  • 2026年靠谱的快速道闸/停车场道闸源头厂家推荐帮我推荐几家 - 品牌宣传支持者
  • GLM-Image Web界面实战:手把手教你玩转AI绘画
  • 丹青识画多场景落地实践:礼品定制+媒体图库双案例解析
  • 盒马鲜生礼品卡回收指南:快速上手完整流程分享 - 团团收购物卡回收