当前位置: 首页 > news >正文

LangChain开源框架应对长任务挑战,Deep Agents如何解决上下文管理难题

Deep Agents SDK 的完整代码已在 GitHub 开源。随着 AI Agent 承担的任务越来越复杂,上下文管理将成为决定 Agent 能力边界的关键因素。这套方案提供了一个很好的起点。

当 AI Agent 需要处理越来越长的任务时,一个棘手的问题浮出水面:LLM 的上下文窗口是有限的。

任务执行时间越长,积累的对话历史和工具调用结果就越多,最终会撑爆上下文窗口。更糟糕的是,即使没有超出限制,过长的上下文也会导致"上下文腐烂"(context rot)——模型开始遗忘早期的重要信息,甚至偏离最初的目标。

LangChain 团队最近开源了 Deep Agents SDK,专门解决这个问题。这个框架赋予 Agent 规划能力、子 Agent 生成能力,以及文件系统集成,使其能够处理复杂的长时间运行任务。其中最核心的贡献,是三种上下文压缩技术。

三种上下文压缩策略

策略一:卸载大型工具输出

当工具返回的结果超过 20,000 tokens 时,系统会自动将完整内容存储到文件系统中,只在活跃上下文中保留一个引用指针和前 10 行的预览。

这样 Agent 知道数据在哪里,需要时可以随时读取,但不会让这些大块数据占用宝贵的上下文空间。

策略二:卸载大型工具输入

当上下文使用量达到 85% 容量时,系统会对历史记录中较早的文件写入和编辑操作进行截断,用文件系统指针替代完整内容。

这是一种渐进式压缩——越老的操作越可能被压缩,而最近的操作保持完整。

策略三:对话摘要

这是最有技术含量的一个策略,包含两个部分。

首先,由另一个 LLM 生成结构化摘要,包括会话意图、已创建的产出物、下一步计划等关键信息,这个摘要保留在上下文中。

同时,完整的对话历史被归档到文件系统,以备需要时恢复。

这种设计的精妙之处在于:摘要提供了足够的上下文让 Agent 继续工作,而完整历史的归档则确保了关键细节不会真正丢失。

如何验证压缩效果

上下文压缩最大的风险是信息丢失。LangChain 团队为此设计了专门的评估策略。

他们使用"大海捞针"测试来验证信息恢复能力——在压缩后的上下文中,Agent 是否仍然能找到早期对话中的关键信息?

为了放大测试信号,他们会故意将压缩阈值从 85% 调低到 10-20%,让压缩更频繁地触发,从而暴露潜在问题。

另一个重点测试是摘要完整性检查。摘要是否准确捕捉了会话的核心要素?是否遗漏了影响后续决策的关键信息?

最隐蔽的失败模式:目标漂移

LangChain 团队特别警告了一种失败模式:目标漂移(goal drift)。

这是上下文压缩最隐蔽的副作用——Agent 在压缩后仍然能正常工作,但逐渐偏离了用户最初的意图。表面上看一切正常,实际上 Agent 已经在解决一个略有不同的问题。

这也是为什么结构化摘要如此重要。摘要中明确包含"会话意图"这一字段,就是为了在压缩后帮助 Agent 保持方向感。

实践建议

LangChain 团队给出了三条实践建议:

先建立基线- 在真实任务上测试 Agent 的基准表现,再去压力测试单个功能

验证信息恢复- 确保 Agent 在压缩后仍能访问关键信息

监控目标漂移- 定期检查 Agent 是否仍在解决最初的问题

Deep Agents SDK 的完整代码已在 GitHub 开源。随着 AI Agent 承担的任务越来越复杂,上下文管理将成为决定 Agent 能力边界的关键因素。这套方案提供了一个很好的起点。

http://www.jsqmd.com/news/338965/

相关文章:

  • IDEA 2025.3 骚操作,有点跟不上了!
  • PyCharm中安装backbone失败,报错:ERROR: Could not find a version that satisfies the requirement backb...如何解决?
  • 今年后端这收入是认真的吗?
  • 2026.2.3 做题记录
  • 微信红包,腾讯元宝学不会
  • Ai 算法资源合集
  • 【问题解决】OSError: Can‘t load tokenizer for ‘xxx/xxx-model‘
  • 雷军辟谣小米二手车“崩盘”:SU7保值率第一,超特斯拉保时捷;千问App宣布投入30亿元启动春节活动;SpaceX官宣与xAI合并 | 极客头条
  • Go 微服务分布式事务 TCC 模式实战全指南
  • 企业级 AI 数据分析实践指南:Spring AI Alibaba DataAgent 全流程落地
  • CRM系统深度横评:从数据录入到管理可视化,谁真正解决了销售团队的核心痛点?
  • Ubuntu vulkan不识别NVIDIA,如何解决?
  • 专家点评Nature | 邵振华/王晓辉/刘剑峰/杨胜勇联合揭示致幻剂诱导血清素受体5-HT2AR的非经典信号通路
  • 2026CRM选型手册:7 大品牌全流程能力深度解析与对比
  • 保姆级教程|用Snakemake一键跑通RNA-seq数据分析流程
  • sklearn中的学习曲线使用时机:用sklearn来观察模型表现时,应该是在模型训练前对未训练的模型使用,还是对训练完的模型使用??
  • Nature出版集团对学术图表的要求,非常详细的解析各个要点,对其他期刊的投稿也很有参考价值
  • Science丨雷晓光团队取得生物催化领域突破
  • MATLAB R2023a 的“优化工具箱(Optimization Toolbox)”里,为什么在图形界面(GUI)里找不到“模拟退火
  • Microbiome | 中国海洋大学王高歌团队揭示海带幼苗白化病致病生物组与宿主之间的复杂相互作用
  • Nature Genetics | 基于突变注释网络的泛基因组压缩
  • 为什么jupyter画热力图,坐标轴上都是空值,其他数据都很正常,但是坐标轴上一直是空的,是数据的问题还是代码的问题,如何解决?
  • 咸鱼流出可上DDR3内存的NAS妖板,支持4K解析,高达9个SATA接口,带MSATA扩展,还带双千兆网口,适合做多盘位NAS或软路由!
  • ICLR 26 | 字节 Depth Anything 3:单Transformer统一3D视觉,刷新SOTA!
  • 国产 BI 已经崛起,一套私有化+源码的独立数据中台,建议收藏!
  • PySide6 流程图编辑器实战:从需求到上手指南(附代码结构解读)
  • 基于STM32F103的BootLoader IAP 实现及上位机开发
  • 2026.2.3
  • 环形网络潮流计算matlab 利用matlab编程计算任意环形网络牛拉法潮流计算程序,程序通用性强
  • 基于Java的店面财务智慧管理系统的设计与实现全方位解析:附毕设论文+源代码