当前位置: 首页 > news >正文

上下文工程:Agent 的记忆与注意力管理

上下文工程:Agent 的"记忆"与"注意力"管理

原文:Effective context engineering for AI agents | Anthropic Engineering Blog | 2025.9.29

导语

在提示工程之后,一个新概念正在崛起:上下文工程(Context Engineering)

构建 LLM 应用不再只是"找到正确的提示词",而是回答一个更宏观的问题:"什么样的上下文配置最有可能产生模型的期望行为?"

上下文指的是采样 LLM 时包含的所有 token——系统指令、工具定义、外部数据、消息历史等。上下文工程就是精心策展这些 token 的艺术。


一、为什么上下文工程很重要

注意力预算有限

和人类一样,LLM 在处理过多信息时也会失去焦点。上下文窗口不是"可以塞多少就塞多少"的存储空间。

上下文腐烂

随着上下文窗口中的 token 增加,模型准确回忆信息的能力会下降。

边际收益递减

上下文是有限的资源,必须被视为一种需要精心管理的稀缺资源。

核心原则:找到能够最大化产生预期结果的最小化高信号 token 集合。


二、有效上下文的构成要素

系统提示词

  • 使用简单直接的语言
  • 找到"正确的高度":避免过于复杂的逻辑,也避免过于模糊的指导
  • 使用 XML 标签或 Markdown 标题结构化组织
  • 从最简化的提示开始测试,根据失败模式逐步添加指令

工具

  • 工具定义了 Agent 与信息/操作空间的契约
  • 返回信息应节省 token,并鼓励高效的行为
  • 避免臃肿的工具集:功能不应重叠,参数应清晰明确

示例

  • 使用多样化、规范性的示例
  • 对 LLM 来说,示例是"一图胜千言"的存在

三、上下文检索策略

即时上下文(Just-in-Time Context)

不要预先检索所有数据,让 Agent 在运行时通过工具动态加载:

  • Agent 维护轻量级标识符(文件路径、链接等)
  • 按需获取数据,类似人类使用书签
  • 支持渐进式披露,让 Agent 通过探索逐步发现上下文

混合策略

结合预检索和自主探索。例如 CLAUDE.md 文件预先加载,其他文件通过 globgrep 按需访问。


四、长期任务的三大技术

1. 压缩(Compression)

当对话接近上下文窗口限制时,总结内容并用摘要重新初始化。

  • 保留关键信息(架构决策、未解决的 Bug)
  • 丢弃冗余的工具输出
  • 最轻量的压缩形式:清除工具调用和结果

2. 结构化笔记(Structured Notes)

Agent 定期将笔记写入上下文窗口之外的持久化内存,稍后重新读取。

  • 提供具有最小开销的持久记忆
  • Agent 可维护待办事项列表、战略笔记等
  • 案例: Claude 玩《宝可梦》时,通过笔记记录数千步的训练进度和战斗策略

3. 子 Agent 架构(Sub-Agent Architecture)

使用专门的子 Agent 处理具有干净上下文窗口的特定任务。

  • 主 Agent 负责高层协调
  • 子 Agent 返回浓缩的摘要
  • 实现关注点的分离

五、实用对照表

挑战 解决方案
上下文过长 压缩 + 清除冗余工具输出
需要跨会话记忆 结构化笔记
任务过于复杂 子 Agent 分解
工具响应太大 分页 + 截断 + response_format
预加载过多工具 延迟加载 + Tool Search

读后感

这篇文章最核心的一句话:

"找到产生预期结果所需的最小化高信号 token 集合。"

上下文工程的本质不是"塞更多信息",而是"精心筛选最有价值的信息"。这和信息论的核心思想一脉相承。


本文是 Anthropic AI Agent 系列 第 7 篇,共 15 篇。下一篇:Contextual Retrieval:让 RAG 更懂上下文

关注公众号 coft 获取系列更新。

http://www.jsqmd.com/news/395959/

相关文章:

  • 2026年知名的弥散供氧分子筛制氧机/弥散供氧制氧系统哪家质量好厂家推荐(实用) - 品牌宣传支持者
  • 学术论文处理神器:YOLO X Layout自动识别章节与公式
  • Contextual Retrieval:让 RAG 更懂上下文
  • 【实时无功-有功控制器的动态性能】【带有电流控制的两级电压源变流器(VSC)】采用αβ阿尔法-贝塔转换进行电流反馈的实时无功功率控制器
  • 不用写代码也能编程:Qwen2.5-Coder-1.5B体验报告
  • 实测:去AIGC和率零哪个更适合你?选择指南
  • 大润发购物卡回收,闲置卡巧变现 - 京顺回收
  • 长时间运行的 Agent:如何设计可靠的执行框架
  • 综述不会写?千笔·专业学术智能体,继续教育写作标杆
  • 英文论文也能降AI率?海外留学生AIGC检测应对方案
  • AI开发-python-milvus向量数据库(2-8 -milvus-数据插入collection)
  • 盒马鲜生礼品卡可以回收吗?详细流程与重要注意事项 - 团团收购物卡回收
  • 2026年比较好的隔音泡棉/导电泡棉生产商推荐怎么选(可靠) - 品牌宣传支持者
  • 多 Agent 协作系统:Anthropic 的实战经验
  • SenseVoice Small部署教程:NVIDIA Container Toolkit集成配置指南
  • 2026年知名的职业生涯规划评估系统/职业生涯规划设备热门推荐 - 品牌宣传支持者
  • MCP 代码执行:构建更高效的 Agent
  • OFA图像语义蕴含模型部署教程:GPU利用率监控与batch size调优指南
  • ERNIE-4.5-0.3B-PT部署避坑:解决‘model not found’、‘out of memory’高频问题
  • 如何设计一个支持地理空间查询(Geo-spatial Query)的数据库索引?
  • 小白必看:Pi0机器人控制中心快速部署指南
  • 阿里开源图片旋转判断:快速解决图片角度问题
  • 2026年知名的柜内香氛五金/家用香氛五金工厂采购指南如何选(实用) - 品牌宣传支持者
  • Python 配置管理的哲学、范式与现代实践:超越 config.ini
  • 深度学习项目训练环境:一键安装与模型训练指南
  • MySQL性能优化:慢查询分析与SQL调优实战
  • 阿里小云KWS模型的多唤醒词识别技术实践
  • 文墨共鸣惊艳效果:朱砂印从‘云泥之别’到‘异曲同工’的渐变视觉动效
  • HY-Motion 1.0动作数据增强算法解析
  • JVM内存模型:深入理解堆内存与元空间