当前位置：首页 > news >正文

程序员必看：高效LLM Agent技术综述与实践指南（建议收藏）

news 2026/3/28 19:06:48

该文综述了LLM进化为Agent系统时面临的效率瓶颈，系统梳理了高效Agent的三大核心方向：高效记忆、高效工具学习和高效规划。详细分析了Agent相比纯LLM更复杂的成本结构，并深入探讨了记忆构建、管理和访问的全生命周期优化策略，以及多Agent系统中的记忆设计挑战。文章指出高效Agent的核心定义是在相似成本预算下实现更高性能，或在可比性能下实现更低成本，为构建高效Agent系统提供了系统性框架。

当LLM从单轮问答进化为能够自主执行复杂任务的agent系统时，一个关键瓶颈浮出水面：效率。与标准LLM的线性单轮交互不同，agent需要进行大量记忆管理、迭代工具调用和多步规划，导致延迟飙升、上下文窗口饱和、token消耗激增。这篇综述系统梳理了高效agent的三大核心方向：高效记忆、高效工具学习、高效规划。

[Figure 1: 高效agent研究的演进轨迹] 该图按记忆、工具学习、规划和基准测试四个主要分支组织，按时间顺序展示了2023年至2025年该领域的发展和分类。

从LLM到Agent：效率差距从何而来

论文将LLM-based agent建模为部分可观测马尔可夫决策过程(POMDP)，并增加了外部工具接口和显式记忆组件。与纯LLM相比，agent的成本来源更加复杂。

对于纯LLM，推理成本主要由token生成主导，可近似为：CostLLM ≈ α × Ntok，其中Ntok是生成的推理token数量，α表示每token成本。而agent则会产生额外开销：Costagent ≈ α × Ntok + 工具成本 + 记忆成本 + 重试成本。

[Figure 2: 从LLM到agent] 展示了从独立推理到带有记忆、规划和工具学习的轨迹级推理的转变，同时引入了额外的成本来源。

因此，提升agent效率不仅仅是减少语言生成，更要减少工具或记忆调用的频率、提高选择性，并减少轨迹中的重试次数。

高效记忆：构建、管理与访问的全生命周期

记忆增强推理是缓解长上下文和长期交互带来的计算与token开销的关键机制。论文围绕agent记忆的生命周期展开，涵盖记忆构建、记忆管理和记忆访问三个阶段。

[Figure 3: 高效记忆概览] 总结了agent-记忆生命周期的三个阶段：记忆构建通过压缩工作记忆和外部记忆中的长交互上下文来缓解token爆炸；记忆管理通过基于规则、基于LLM或混合策略来整理和更新累积的记忆存储以控制延迟；记忆访问决定检索哪些记忆以及如何将其整合到模型中。

记忆构建

工作记忆分为文本记忆和潜在记忆两类。文本记忆方面，COMEDY使用LLM生成和压缩记忆，MemAgent和MEM1通过在每一步重写和更新紧凑的记忆状态来顺序处理长输入。潜在记忆方面，Activation Beacon将上下文分割成块并使用渐进压缩将KV激活蒸馏到信标中，MemoryLLM维护固定大小的记忆token池，Titans在测试时更新神经记忆模块。

外部记忆包括基于项目的记忆、基于图的记忆和层次化记忆。基于项目的记忆中，SeCom使用分割模型将长期对话划分为主题连贯的片段并应用压缩模型去噪，A-MEM将每次交互转换为带有LLM生成的上下文描述、关键词和标签的原子笔记。基于图的记忆中，Zep通过摄取带时间戳的事件、提取/对齐实体和关系来构建时间感知知识图。层次化记忆中，MemGPT通过将上下文提示分区为系统指令、可写工作上下文和FIFO消息缓冲区来构建层次化记忆。

[Table 1: 效率导向机制的记忆概览] 该表按照论文提出的分类法组织，涵盖工作记忆、外部记忆和多agent记忆，列出了各方法的类别、核心机制和资源链接。

记忆管理

基于规则的管理使用预定义规则进行更新、删除和合并。MemoryBank引入了基于艾宾浩斯遗忘曲线的记忆更新规则，随时间衰减记忆同时强化重要记忆。A-MEM的实验结果表明，基于遗忘曲线的记忆管理有效控制了记忆大小并减少了检索时间，但也导致任务性能大幅下降。

基于LLM的管理可分为操作选择和开放式生成两种形式。Memory-R1和Mem0都通过检索相似条目并在ADD、UPDATE、DELETE、NOOP中选择来更新外部记忆。A-MEM使用生成式更新：检索top-k相似笔记后，LLM创建链接并通过记忆演化重写相关笔记。

混合管理结合轻量级规则控制和选择性LLM操作。MemoryOS和LightMem都采用分层记忆的层级特定、触发驱动更新。MemGPT使用队列管理器通过记忆压力警告、驱逐和递归摘要来强制执行token限制。

记忆访问

记忆选择方面，Generative Agents和Human-like memory将时间因素纳入考虑。对于基于图的记忆，AriGraph和Mem0[g]通过锚定查询相关事实并扩展邻居到局部子图来从记忆图中检索。H-MEM中，每个记忆嵌入指向下一层的相关子记忆，递归索引到最后一层以检索相关信息，从而加速检索。

记忆整合方面，文本整合中Mem0在推理时检索最相关的项目并将其格式化为紧凑的记忆块附加到对话上下文中。潜在整合中，MemoryLLM在每个transformer层插入可训练的记忆token池，M+添加CPU驻留的长期记忆和协同训练的检索器。

多Agent记忆：共享与本地的权衡

多agent系统中的记忆设计面临独特挑战。共享记忆方面，MS使用共享记忆池和选择性添加，G-Memory采用三层图记忆和双向粗到细检索。本地记忆方面，AgentNet为路由/执行使用固定大小的记忆模块并进行动态剪枝，DAMCS采用去中心化的每agent短期/长期记忆和目标导向的层次化知识图。混合记忆方面，SRMT结合个人潜在记忆和全局广播的共享循环记忆。

高效工具学习与高效规划

论文还系统梳理了高效工具学习和高效规划两大方向。工具学习涵盖工具选择、工具调用和工具整合推理；规划涵盖单agent规划效率和多agent协作效率。这些模块的优化策略与记忆优化相辅相成，共同构成高效agent系统的完整图景。

写在最后

论文总结了记忆、工具学习和规划三个维度的基准测试，并指出了开放挑战和未来研究方向。高效agent的核心定义是：在相似成本预算下实现更高性能，或在可比性能下实现更低成本的成本-性能权衡。

这篇综述为理解和构建高效agent系统提供了系统性框架，对于关注AI系统长期可持续性和可及性的研究者和实践者具有重要参考价值。