当前位置：首页 > news >正文

AI Agent之一：不可能三角

news 2026/3/26 17:27:22

从一篇文章聊起

Anthropic的论文building-effective-agents，是2024年10月发布的一篇解析Workflow和AI Agent关系的论文，详细解读可参考如何构建智能体。

从这篇论文能看出，2024年Workflow仍是主流，AI Agent尚未普及，但这篇文章极具旗帜意义——它首次清晰梳理了Workflow与AI Agent的内在关联，为后续AI Agent的工程化落地奠定了Workflow设计的基础。文章对Workflow的范式做了详细论述，对AI Agent的介绍却语焉不详，仅简单提及AI Agent的架构本身是简洁的。

AI Agent火起

Claude Code于2025年2月推出，同年10月网页版上线后，短短数月便快速爆发，随后还出现了Skill相关玩法，行业普遍认为，AI Agent的元年正式到来。

2024年的论文中已有AI Agent的概念，为何直到2025年底才迎来爆发？核心原因是此前存在工具调用准确率的关键性限制。

2025年下半年，OpenAI O3、Claude 4.5等标志性推理模型相继发布，这些基座模型的推理能力实现了质的提升，让工具调用准确率大幅提高。技术瓶颈突破后，AI Agent便迎来了全面爆发。

如今各类AI Agent开发手册层出不穷，可预见头部公司必将推出Agent SDK抢占市场，开发者无需再从0开始自研AI Agent。而要做好AI Agent开发，首先要理解其核心本质。

AI Agent的本质

聊到这里，我们不妨思考：AI Agent的本质是什么？它是一套完整的智能系统，核心链路可概括为大模型→上下文→应用，其中上下文是影响系统表现的核心环节。

我们用计算机系统做个类比：大模型是AI Agent的“CPU”，为整个系统提供核心推理动力；对应的，Workflow和AI Agent框架则相当于计算机的“操作系统”——操作系统的核心是统筹管理CPU、内存、外设等全资源，这类框架的核心则是统筹调度任务规划、工具调用、上下文管理、任务状态监控等Agent全环节。其中，上下文是框架所管理的“核心数据资源”，类似操作系统管理的内存数据；框架则是上下文的“统筹管理载体”，让上下文的价值得以有效发挥。

Claude Code的诸多设计思路，本质都是围绕上下文管理展开的。例如Skill的设计细节：先加载不超过200字符的Skill描述，再根据使用决策加载具体的Skill。这一设计的核心，就是通过轻量描述+按需加载的精细化上下文管理，既规避了上下文窗口的限制，又缓解了注意力有效性衰减的问题。

可以说，上下文的工程化管理能力，直接决定了AI Agent应用的实际表现。即便AI Agent框架能处理大部分通用的上下文问题，但每个应用都有自身的业务特点，唯有深入理解上下文的管理逻辑，才能构建出贴合场景的优秀AI Agent。

不可能三角

AI Agent的落地过程中，存在一个经典的不可能三角：

准确性 (Accuracy) ▲ /│\ / │ \ AI Agent 不可能三角 / │ \ (同时优化三者) / │ \ / │ \ / │ \ 延迟 ←───┴─────→ 成本 (Latency) (Cost)

准确性：把事做对、做好，输出结果贴合实际需求且无差错；
延迟：完成一次任务的全链路耗时，从接收需求到输出有效结果的总时间；
成本：完成任务的综合代价，主要包括算力、工具调用的资金成本，以及研发、运维的精力与资源投入。

这三者无法同时做到极致，优化其中一个或两个维度，必然要在剩余维度做出妥协：

想把事做得又对又好（高准确性），要么增加资金与资源投入（高成本），要么接受更长的任务处理时间（高延迟）；
想又快又好地完成任务（低延迟+高准确性），就必须投入更多的算力、研发等资源（高成本）；
想又快又省钱地完成任务（低延迟+低成本），则难以保证结果质量，易出现差错（低准确性）。

为何会产生这个不可能三角？并非单一的大模型约束所致，而是AI Agent端到端全链路的多层核心约束叠加的结果。其中大模型的固有特性约束是底层核心，再叠加工程落地过程中算力、流程编排、任务执行等环节的配套约束，最终形成了三者的制衡关系。

基于此，我们提炼出当前阶段影响AI Agent从“可用”到“好用”的TOP3核心约束。之所以聚焦当前阶段，是因为工具调用准确率是AI Agent从“概念”到“可用”的关键突破因素，该问题解决后，上下文相关约束便成为AI Agent从“可用”到“好用”的核心矛盾。

约束	限制	解决方案
上下文窗口	2025年上半年主流模型的120K tokens硬限制，超量则无法处理	批量工具处理数据 + Top-K 摘要保留核心信息，减少上下文数据量
注意力有效性	上下文超50K tokens后，模型任务准确率显著下降	分层按需加载内容，压缩冗余信息，降低模型注意力负荷
长任务连续性	多步执行易偏离核心目标，任务连贯性大幅下降	记录每步任务节点状态，持续锚定总目标，避免执行漂移

这三个约束，是我们理解并深入AI Agent设计的核心着力点。以上下文窗口为例，如今模型能力已实现大幅进步，远超此前的120K tokens，不少模型支持200K tokens，1M tokens（1000K tokens）的模型也屡见不鲜。在实际任务执行中，每次工具调用仅新增数K tokens的上下文，足以支撑长时间的连续调用，多数任务已不会超出上下文窗口的硬限制。此时，上下文窗口的限制已非当前主要矛盾，而上下文窗口规模超出模型注意力有效阈值引发的注意力漂移，才是核心问题。这也是为何在一些长任务中，部分指令表述明确，大模型却无法精准响应执行的关键原因。