当前位置: 首页 > news >正文

AI代理:从单轮到长期运行

代理正在从聊天机器人成长为长期运行的同事,可以读取数据、运行代码并交付实际工件。本文介绍了如何使用技能、shell 和压缩来以干净、可靠的方式构建这些代理。

大多数"AI 助手"今天回答一个问题然后停止。长期运行的代理处理完整的工作流程:读取大型数据集、更新文件,甚至在多个步骤中编写应用程序。

OpenClaw(以前的 Clawdbot)是朝着这个方向迈出的一步,这并不是第一个。已经有许多项目在开发中,使长期运行的代理处理复杂任务,需要多步骤工作流程执行。

OpenAI 最新的代理堆栈为此添加了三个支柱:

  1. 技能:模型可以在需要时加载的可重用过程。
  2. Shell:用于运行代码和编写文件的实际执行环境。
  3. 压缩:自动上下文管理,使长对话不会中断。
    这些新功能的组合将让你构建的代理行为更像是一个遵循剧本并使用真实计算机运行多个任务以实现目标的人类,而不是单轮的聊天窗口。

下面是对其中每一个的详细解释。

1、技能:代理的可重用过程

技能是一个文件文件夹加上一个 SKILL.md 清单,描述如何执行特定工作流程。你可以将其视为代理可以按需挂载和遵循的版本化剧本或标准操作程序。

技能由 Anthropic (Claude AI) 作为将可重用指南分配给代理的开放标准而推出。

例如,你希望代理收集新闻。但只是提到这一点,代理会产生很多幻觉。你将有一组指令,比如如何浏览、浏览什么、如何响应或总结新闻,所有这些组合成一个带有要做和不要做的单一提示,将成为代理的技能。

当技能可用时,平台向模型公开三个关键字段:

  • 名称:模型看到的标识符,可以选择调用。
  • 描述:何时使用它、它做什么以及它产生什么。
  • 路径:从哪里加载实际的SKILL.md和相关文件。
    如果模型决定技能适合任务,它会读取 SKILL.md 并遵循那里编写的工作流程。

没有技能,你经常最终将所有内容塞进一个巨大的系统提示中。这会损害可靠性,使更新变得痛苦,并浪费令牌。

技能通过以下方式解决了这个问题:

  • 将稳定的过程移动到可重用的捆绑包中。
  • 根据路由仅在需要时加载指令。
  • 使工作流程版本化、可测试且易于迭代。
    在实践中,技能成为你组织的活跃 SOP:每个技能代表"我们在这里如何做 X",代理只需遵循它们。

2、Shell:给代理真正的计算机

Shell 工具让代理在真实的终端环境中工作,而不仅仅是虚拟对话。

主要有两种模式:

  • 托管 shell:由 OpenAI 在云中管理的容器。
  • 本地 shell:你自己运行的运行时,但遵循相同的工具语义。
    在这两种情况下,代理都可以安装依赖项、运行脚本并将输出写入磁盘。Shell 与 Responses API 集成,因此你仍然具有有状态运行、工具调用和多轮工作流程。

为什么 shell 强大?

通过 shell 访问,代理可以:

  • 安装库(例如,用于数据分析的 Python 包)。
  • 通过允许的网络调用获取数据。
  • 将工件(例如报告、清洗后的数据集或电子表格)写入磁盘。
    这将代理从"以散文回答"转变为"生成你可以审查、比较并在下游使用的实际文件。"

3、压缩:保持长期运行的一致性

当代理工作数十或数百轮时,你很快会达到模型的上下文窗口限制。在没有帮助的情况下,你必须手动修剪或总结历史记录,这容易出错。

压缩自动执行此操作:

  • 随着运行的增长,旧部分被压缩,同时保留关键事实。

  • 代理可以继续工作,而无需你手动编辑对话。
    在 Responses API 中,压缩以两种形式出现:

  • 服务器端压缩(新):当上下文超过阈值时自动在流中运行。

  • 独立的/responses/compact端点:让你在想要显式控制时手动触发压缩。
    将压缩用作默认原语可以保持长期工作流程的稳定性,并减少"从头开始"的时刻。

4、结束语

为什么技能、shell 和压缩协同工作最好

这三个部分是互补的:

  • 技能保持你的指令干净和可重用,而不是一个巨大的提示。
  • Shell 为这些指令提供运行真实代码和生成工件的方式。
  • 压缩保持完整的工作流程随时间运行而不丢失上下文。
    结果是"一次构建,随处运行"的代理,可以遵循过程、使用工具并在长时间工作中保持一致。

原文链接:AI代理:从单轮到长期运行 - 汇智网

http://www.jsqmd.com/news/379830/

相关文章:

  • MogFace人脸检测模型-WebUI多场景落地:智慧工地安全帽佩戴+人脸双识别方案
  • 7个秘诀让你的3D打印文件处理效率提升300%
  • 基于WOA-TCN-BILSTM-Attention故障诊断研究(Matlab代码实现)
  • 4大核心能力掌握XUnity.AutoTranslator:Unity游戏本地化全流程实战指南
  • 开发者速成指南:ChatGLM3-6B-128K在Ollama中启用Code Interpreter全流程
  • DCT-Net实战:上传照片秒变二次元角色(保姆级指南)
  • 无需网络!本地GPU运行MogFace检测模型指南
  • AI绘画新玩法:用霜儿-汉服模型创作你的古风世界
  • 避坑指南:Qwen3-TTS语音克隆常见问题解决方案
  • 华大单片机驱动段码LCD实战:从寄存器配置到动态显示优化
  • 解锁NCM格式:从加密到自由播放的技术突破指南
  • bge-large-zh-v1.5部署教程:3步启用本地中文Embedding服务(含日志验证)
  • 低配GPU福音:Meixiong Niannian轻量画图引擎体验报告
  • 立创EDA专业版差分对布线实战:从规则设置到等长调整
  • Face Analysis WebUI测评:精准度与易用性实测
  • 【n8n实战指南】从零构建自动化工作流:模板导入与表达式应用全解析
  • 显卡性能解锁神器:NVIDIA Profile Inspector深度调校指南
  • LingBot-Depth应用场景:VR内容创作中真实感深度图生成与编辑
  • IC芯片老化测试实战:如何用HTOL测试筛选车规级MCU(附参数设置表)
  • Qwen3-Reranker-8B部署指南:从零开始的Linux环境配置
  • 5步实现NCM文件解密:开源工具全流程应用与自动化方案
  • STM32F1驱动MCP41010实现可编程增益放大器的SPI通信实战
  • YOLOv12新手入门:从安装到第一个检测结果的完整流程
  • 基恩士KV 7500与EtherNET/IP远程IO模块实战:从安装到调试的完整流程
  • 内存溢出?显存不足?Seedance 2.0 2K实时生成报错终极对照表,含12种错误码速查+修复命令
  • BetterGenshinImpact:解决原神重复操作负担的自动化解决方案
  • Qwen2.5-1.5B惊艳效果:复杂嵌套逻辑判断+条件分支生成能力验证
  • Unity资源编辑完全指南:从零基础到熟练掌握UABEA工具
  • Git-RSCLIP开箱即用:遥感图像智能分类全攻略
  • Chord部署案例:Qwen2.5-VL在边缘设备Jetson Orin上的轻量化适配