当前位置: 首页 > news >正文

AI Agent之一:不可能三角

从一篇文章聊起

Anthropic的论文building-effective-agents,是2024年10月发布的一篇解析Workflow和AI Agent关系的论文,详细解读可参考如何构建智能体。

从这篇论文能看出,2024年Workflow仍是主流,AI Agent尚未普及,但这篇文章极具旗帜意义——它首次清晰梳理了Workflow与AI Agent的内在关联,为后续AI Agent的工程化落地奠定了Workflow设计的基础。文章对Workflow的范式做了详细论述,对AI Agent的介绍却语焉不详,仅简单提及AI Agent的架构本身是简洁的

AI Agent火起

Claude Code于2025年2月推出,同年10月网页版上线后,短短数月便快速爆发,随后还出现了Skill相关玩法,行业普遍认为,AI Agent的元年正式到来。

2024年的论文中已有AI Agent的概念,为何直到2025年底才迎来爆发?核心原因是此前存在工具调用准确率的关键性限制。

2025年下半年,OpenAI O3、Claude 4.5等标志性推理模型相继发布,这些基座模型的推理能力实现了质的提升,让工具调用准确率大幅提高。技术瓶颈突破后,AI Agent便迎来了全面爆发。

如今各类AI Agent开发手册层出不穷,可预见头部公司必将推出Agent SDK抢占市场,开发者无需再从0开始自研AI Agent。而要做好AI Agent开发,首先要理解其核心本质。

AI Agent的本质

聊到这里,我们不妨思考:AI Agent的本质是什么?它是一套完整的智能系统,核心链路可概括为大模型→上下文→应用,其中上下文是影响系统表现的核心环节。

我们用计算机系统做个类比:大模型是AI Agent的“CPU”,为整个系统提供核心推理动力;对应的,Workflow和AI Agent框架则相当于计算机的“操作系统”——操作系统的核心是统筹管理CPU、内存、外设等全资源,这类框架的核心则是统筹调度任务规划、工具调用、上下文管理、任务状态监控等Agent全环节。其中,上下文是框架所管理的“核心数据资源”,类似操作系统管理的内存数据;框架则是上下文的“统筹管理载体”,让上下文的价值得以有效发挥。

Claude Code的诸多设计思路,本质都是围绕上下文管理展开的。例如Skill的设计细节:先加载不超过200字符的Skill描述,再根据使用决策加载具体的Skill。这一设计的核心,就是通过轻量描述+按需加载的精细化上下文管理,既规避了上下文窗口的限制,又缓解了注意力有效性衰减的问题。

可以说,上下文的工程化管理能力,直接决定了AI Agent应用的实际表现。即便AI Agent框架能处理大部分通用的上下文问题,但每个应用都有自身的业务特点,唯有深入理解上下文的管理逻辑,才能构建出贴合场景的优秀AI Agent。

不可能三角

AI Agent的落地过程中,存在一个经典的不可能三角:

准确性 (Accuracy) ▲ /│\ / │ \ AI Agent 不可能三角 / │ \ (同时优化三者) / │ \ / │ \ / │ \ 延迟 ←───┴─────→ 成本 (Latency) (Cost)
  • 准确性:把事做对、做好,输出结果贴合实际需求且无差错;
  • 延迟:完成一次任务的全链路耗时,从接收需求到输出有效结果的总时间;
  • 成本:完成任务的综合代价,主要包括算力、工具调用的资金成本,以及研发、运维的精力与资源投入。

这三者无法同时做到极致,优化其中一个或两个维度,必然要在剩余维度做出妥协:

  • 想把事做得又对又好(高准确性),要么增加资金与资源投入(高成本),要么接受更长的任务处理时间(高延迟);
  • 想又快又好地完成任务(低延迟+高准确性),就必须投入更多的算力、研发等资源(高成本);
  • 想又快又省钱地完成任务(低延迟+低成本),则难以保证结果质量,易出现差错(低准确性)。

为何会产生这个不可能三角?并非单一的大模型约束所致,而是AI Agent端到端全链路的多层核心约束叠加的结果。其中大模型的固有特性约束是底层核心,再叠加工程落地过程中算力、流程编排、任务执行等环节的配套约束,最终形成了三者的制衡关系。

基于此,我们提炼出当前阶段影响AI Agent从“可用”到“好用”的TOP3核心约束。之所以聚焦当前阶段,是因为工具调用准确率是AI Agent从“概念”到“可用”的关键突破因素,该问题解决后,上下文相关约束便成为AI Agent从“可用”到“好用”的核心矛盾。

约束限制解决方案
上下文窗口2025年上半年主流模型的120K tokens硬限制,超量则无法处理批量工具处理数据 + Top-K 摘要保留核心信息,减少上下文数据量
注意力有效性上下文超50K tokens后,模型任务准确率显著下降分层按需加载内容,压缩冗余信息,降低模型注意力负荷
长任务连续性多步执行易偏离核心目标,任务连贯性大幅下降记录每步任务节点状态,持续锚定总目标,避免执行漂移

这三个约束,是我们理解并深入AI Agent设计的核心着力点。以上下文窗口为例,如今模型能力已实现大幅进步,远超此前的120K tokens,不少模型支持200K tokens,1M tokens(1000K tokens)的模型也屡见不鲜。在实际任务执行中,每次工具调用仅新增数K tokens的上下文,足以支撑长时间的连续调用,多数任务已不会超出上下文窗口的硬限制。此时,上下文窗口的限制已非当前主要矛盾,而上下文窗口规模超出模型注意力有效阈值引发的注意力漂移,才是核心问题。这也是为何在一些长任务中,部分指令表述明确,大模型却无法精准响应执行的关键原因。

总结

AI Agent的元年已至,开发出贴合场景、表现优异的AI Agent是所有开发者的共同目标,但这并非仅依靠一款优秀的AI Agent框架就能实现。其核心在于真正理解AI Agent的本质,掌握上下文管理的工程化能力,唯有如此,才能让AI Agent的价值在实际场景中充分落地。

http://www.jsqmd.com/news/290310/

相关文章:

  • 控油防脱洗发水怎么选?2026十大良心国货洗发水Top榜,成分功效全解析
  • 《实时渲染》第2章-图形渲染管线-2.4光栅化
  • 奇正沐古:B2B锂电行业权威靠谱的品牌营销战略咨询公司
  • 深入解析:Fastlane 结合 开心上架(Appuploader)命令行版本实现跨平台上传发布 iOS App 免 Mac 自动化上架实战全解析
  • 2026珠海儿童青少年专业配镜与近视防控指南
  • 3大技术路线对决!2026标杆款控油防脱洗发水测评,植萃专利款领跑
  • 在淘宝天猫,一大批商家正通过服务获得增长
  • FTP 图片上传 AOI图片
  • 《人月神话》阅读笔记第二篇
  • tcp server windows xp 杭州项目
  • AI率怎么降下来?有没有降 AI 率的靠谱工具网站?本人亲测,有效降低AI率的实用方法与工具推荐!
  • 死神永生介绍帖
  • 基础知识 | OGG如何评估抽取ORACLE的REDO的速度,你必须要知道!
  • 眼调节训练灯:青少年近视防控的新选择!
  • 这几个日常行为,真的能帮娃预防近视!快码住
  • 【开题答辩全过程】以 基于java的城市公交查询系统为例,包含答辩的问题和答案
  • 【饮料检测】基于matlab GUI饮料质量检测、类别和价格识别系统【含Matlab源码 15017期】
  • 【船舶仿真】基于matlab李亚普诺夫非线性的船舶航向回步自适应控制器设计【含Matlab源码 15018期】
  • 【PID控制】基于matlab GUI PID控制器调参设计【含Matlab源码 15021期】
  • 收藏夹里的尸体救活术:用AI一键构建知识的上帝视角
  • Uni-app 性能天坑:为什么 v-if 删不掉 DOM 节点
  • P11630 [WC2025] 士兵
  • 硬件电源电路设计杂项总结
  • 【图像增强】水下图像一致性增强评价系统【含GUI Matlab源码 15016期】
  • 【饮料检测】饮料质量检测、类别和价格识别系统【含GUI Matlab源码 15017期】
  • php-fpm + nginx 环境搭建配置与常见问题解决
  • 【配送路径规划】自适应双种群协同鸡群算法ADPCCSO求解带时间窗的骑手外卖配送路径规划问题(目标函数:最优路径成本 含服务客户数量 服务时间 载量 路径长度)【含Matlab源码 15015期】
  • 【船舶仿真】李亚普诺夫非线性的船舶航向回步自适应控制器设计【含Matlab源码 15018期】
  • nodejs基于vue兴趣班报名管理系统_g3td7
  • 【PID控制】PID控制器调参设计【含GUI Matlab源码 15021期】