当前位置：首页 > news >正文

多 Agent 协作系统：Anthropic 的实战经验

news 2026/4/8 16:41:58

多 Agent 协作系统：Anthropic 的实战经验

原文：How we built our multi-agent research system | Anthropic Engineering Blog | 2025.6.13

导语

Claude 的研究功能背后，是一个完整的多 Agent 协作系统。首席 Agent 负责规划，多个子 Agent 并行搜索，最后汇总生成带引用的研究报告。

这篇文章是 Anthropic 的实战经验分享——从原型到生产的全过程，包括架构设计、提示工程、评估方法和生产可靠性。

一、为什么需要多 Agent

研究任务的特殊性

开放式问题，无法预测所需步骤
需要根据发现动态调整策略
信息量可能远超单个上下文窗口

多 Agent 的优势

并行压缩：子 Agent 在各自的上下文窗口中并行操作，将海量信息压缩后返回
关注点分离：每个子 Agent 有独特的工具、提示和探索轨迹
超越个体限制：就像人类社会通过协作超越个体能力

性能数据

多 Agent 系统（Opus 4 首席 + Sonnet 4 子 Agent）在研究评估中比单 Agent Opus 4 高出 90.2%
仅 token 使用量就解释了 BrowseComp 评估中 80% 的性能差异

二、系统架构

协调器-工作器模式

用户查询 → 首席研究 Agent├── 子 Agent 1 (搜索方向 A)├── 子 Agent 2 (搜索方向 B)└── 子 Agent 3 (搜索方向 C)↓首席 Agent 综合结果↓引文 Agent 处理来源↓最终研究报告

关键设计

首席 Agent 将计划保存到内存（上下文窗口超过 200K tokens 时会被截断）
子 Agent 独立执行搜索，使用交错思考评估结果
引文 Agent 确保所有声明正确归因到来源

三、八条提示工程原则

1. 像你的 Agent 一样思考

在控制台中构建模拟，使用完全相同的提示和工具，逐步观察 Agent 工作。

2. 教导协调器如何委派

每个子 Agent 需要：明确的目标、输出格式、工具使用指导和任务边界。简短的指令（如"研究半导体短缺"）会导致重复工作。

3. 将规模扩展到查询复杂性

简单事实查找：1 个 Agent，3-10 次工具调用
直接比较：2-4 个子 Agent
复杂研究：10+ 个子 Agent

4. 工具设计至关重要

给 Agent 明确的启发式方法：先检查所有可用工具，将工具与用户意图匹配。

5. 让 Agent 自我完善

Claude 4 可以成为出色的提示工程师。一个"工具测试 Agent"通过几十次测试发现了关键的工具缺陷，改进后任务完成时间减少了 40%。

6. 先宽后窄

Agent 默认使用过于冗长的查询。提示 Agent 以简短、宽泛的查询开始，逐渐缩小焦点。

7. 引导思考过程

扩展思考让首席 Agent 规划方法，子 Agent 用交错思考评估工具结果质量。

8. 并行工具调用

引入并行化后，研究时间减少了多达 90%。

四、评估方法

小样本快速启动

不需要数百个任务，20 个代表性查询就是很好的开始。

LLM-as-Judge

使用 LLM 评判器根据标准评估输出：事实准确性、引文准确性、完整性、来源质量、工具效率。

人工评估不可替代

人类测试者发现了 Agent 持续选择 SEO 优化的内容农场而非权威来源的偏差。

五、生产可靠性

Agent 是有状态的，错误会累积

构建可以从错误中恢复的系统，让 Agent 知道工具何时失败并适应。

调试需要新方法

添加完整的生产跟踪，监控 Agent 决策模式和交互结构。

部署需要仔细协调

使用彩虹部署，逐渐将流量从旧版本转移到新版本。

六、Token 经济学

类型	Token 使用量（相对聊天）
普通聊天	1x
单 Agent	4x
多 Agent	15x

多 Agent 系统需要任务价值足够高以支付增加的成本。

读后感

这篇文章最令人震撼的数据是：仅 token 使用量就解释了 80% 的性能差异。

这意味着多 Agent 的核心价值不是"更聪明"，而是"能处理更多信息"。本质上，多 Agent 是一种扩展计算资源的方式。

本文是 Anthropic AI Agent 系列 第 10 篇，共 15 篇。下一篇：MCP 代码执行：构建更高效的 Agent

关注公众号 coft 获取系列更新。

查看全文

http://www.jsqmd.com/news/395945/

SenseVoice Small部署教程：NVIDIA Container Toolkit集成配置指南

2026年知名的职业生涯规划评估系统/职业生涯规划设备热门推荐 - 品牌宣传支持者

MCP 代码执行：构建更高效的 Agent

OFA图像语义蕴含模型部署教程：GPU利用率监控与batch size调优指南

ERNIE-4.5-0.3B-PT部署避坑：解决‘model not found’、‘out of memory’高频问题

如何设计一个支持地理空间查询（Geo-spatial Query）的数据库索引？

小白必看：Pi0机器人控制中心快速部署指南

阿里开源图片旋转判断：快速解决图片角度问题

2026年知名的柜内香氛五金/家用香氛五金工厂采购指南如何选（实用） - 品牌宣传支持者

Python 配置管理的哲学、范式与现代实践：超越 config.ini

深度学习项目训练环境：一键安装与模型训练指南

MySQL性能优化：慢查询分析与SQL调优实战

阿里小云KWS模型的多唤醒词识别技术实践

文墨共鸣惊艳效果：朱砂印从‘云泥之别’到‘异曲同工’的渐变视觉动效

HY-Motion 1.0动作数据增强算法解析

JVM内存模型：深入理解堆内存与元空间

分布式系统CAP理论与BASE理论详解

2026年口碑好的高速贴标机/在线打印贴标机供应商采购指南选哪家 - 品牌宣传支持者

夜红外图像无人机检测数据集VOC+YOLO格式1963张1类别

2026年质量好的医用护理床/家庭护理床品牌厂家推荐哪家强 - 品牌宣传支持者

快速体验：Qwen3-ASR-0.6B语音识别效果展示

Banana Vision Studio快速体验：无需专业技能的设计工具

5分钟搭建LLM API管理平台：支持ChatGLM/文心一言等主流模型

从零开始学GTE模型：文本嵌入技术入门指南

2026年靠谱的入户门智能门锁/源头工厂智能门锁制造厂家实力参考哪家专业 - 品牌宣传支持者

2026年靠谱的快速道闸/停车场道闸源头厂家推荐帮我推荐几家 - 品牌宣传支持者

GLM-Image Web界面实战：手把手教你玩转AI绘画

丹青识画多场景落地实践：礼品定制+媒体图库双案例解析

盒马鲜生礼品卡回收指南：快速上手完整流程分享 - 团团收购物卡回收

多 Agent 协作系统：Anthropic 的实战经验

多 Agent 协作系统：Anthropic 的实战经验

导语

一、为什么需要多 Agent

研究任务的特殊性

多 Agent 的优势

性能数据

二、系统架构

协调器-工作器模式

关键设计

三、八条提示工程原则

1. 像你的 Agent 一样思考

2. 教导协调器如何委派

3. 将规模扩展到查询复杂性

4. 工具设计至关重要

5. 让 Agent 自我完善

6. 先宽后窄

7. 引导思考过程

8. 并行工具调用

四、评估方法

小样本快速启动

LLM-as-Judge

人工评估不可替代

五、生产可靠性

Agent 是有状态的，错误会累积

调试需要新方法

部署需要仔细协调

六、Token 经济学

读后感

转载声明

相关文章：