当前位置: 首页 > news >正文

OpenAI 深夜王炸!GPT-5.3 极速版发布,更甩出 10 条 Agent“保命”军规

OpenAI 刚刚发布了一篇极具实战价值的技术博客,名为"Shell + Skills + Compaction: Tips for long-running agents that do real work"

这篇文章的核心观点非常直接:我们正在从单轮对话的 Assistant 时代,跨越到能持续运行数小时、处理真实工作流的 Agent 时代。

要实现这一跨越,光靠 Prompt Engineering(提示词工程)已经不够了,我们需要的是更系统化的System Engineering(系统工程)。OpenAI 提出了构建稳定 Agent 的三大核心原语:

  1. Skills(技能):把复杂的任务拆解为可复用的、版本化的 SOP(标准作业程序)。

  2. Shell(终端):给 AI 一个真实的执行环境,让它能安装依赖、运行代码、生成文件。

  3. Compaction(压缩):自动管理超长上下文,让 Agent 能够“一直跑下去”而不爆内存。

结合这三大原语,OpenAI 总结了 10 条经过实战检验的“军规”。无论你是正在开发 AI 应用的工程师,还是对 Agent 架构感兴趣的产品经理,这些经验都价值连城。


什么是“真正干活”的 Agent?

以前的 AI 助手,更像是“聊天机器人”。你问它一个问题,它回答你,结束。

现在的 Agent,需要像一个真实员工一样工作:

  • 不仅仅是回答,而是去执行(Execute)。

  • 不仅仅是一次性交互,而是连续数小时甚至数天的长程任务(Long-running)。

  • 不仅仅是处理文本,而是处理文件、数据、代码,并产出实际的工作成果(Artifacts)。

为了支撑这种“重活”,OpenAI 给出了全新的架构思路。

核心三剑客:Skills, Shell, Compaction

1. Skills:Agent 的“技能包”

不要把所有的 Prompt 都塞进 System Prompt 里!那样不仅贵,而且容易让模型“精神错乱”。

Skills就像是给 Agent 安装的“驱动程序”或“技能书”。它是一个包含SKILL.md(定义指令)和相关文件的文件夹。只有当 Agent 觉得需要用某个技能时,它才会去“加载”这个技能的详细说明。

2. Shell:Agent 的“工作台”

光说不练假把式。Shell让 Agent 拥有了一个真实的 Linux 终端环境。它可以在里面:

  • 安装 Python 库(pip install)。

  • 运行数据分析脚本。

  • 生成并保存文件(如 Excel 报表、PDF 文档)。

这是 Agent 从“想”到“做”的关键一步。

3. Compaction:Agent 的“长期记忆”

长任务最大的敌人是 Context Window(上下文窗口)限制。Compaction技术就像是定期整理大脑。当对话历史太长时,它会自动在后台将前面的内容进行“摘要压缩”,保留关键信息,丢弃冗余细节。这样,Agent 就能在有限的上下文空间里,维持无限期的连续工作。


OpenAI 的 10 条实战

基于 Codex 和内部 Agent 的开发经验,OpenAI 分享了以下 10 条避坑指南:

设计篇:让 Agent 更聪明地选择

1. 把 Skill 描述写成“路由逻辑”,而不是“广告文案”

Skill 的description字段是写给模型看的,不是给用户看的。

  • ❌ 错误写法:“这是一个强大的数据分析工具,可以帮您洞察数据背后的秘密。”

  • ✅ 正确写法:“当用户需要分析 CSV/Excel 文件,或需要生成图表时使用此技能。不要在用户仅仅询问定义时使用。”

技巧:在描述里明确写上 **"Use when..."**(什么时候用)和 **"Don't use when..."**(什么时候别用)。

2. 用“负面示例”防止误触发

有时候 Agent 会过度积极地调用工具。解决办法是在 Prompt 或 Skill 定义中加入Negative Examples(负面示例)。

Glean(一家企业搜索公司)在实战中发现,加上“什么情况不调用”的示例后,Agent 的误调用率降低了 20%!

3. 把模板和示例藏在 Skill 里

不要在 System Prompt 里塞满各种 JSON 模板或 Few-shot 示例。把它们放进SKILL.md里。

好处:只有当这个 Skill 被选中时,这些 tokens 才会被加载。平时不占用上下文,既省钱又让主 Prompt 更清爽。

执行篇:让 Agent 更稳定地运行

4. 长任务要“从一而终”

对于长程任务,确保 Agent 在同一步骤中复用同一个 Container(容器)。这样,你在第一步安装的库、生成的中间文件(/mnt/data),在第十步还能找得到。配合 Compaction,这是实现“多日任务”的基础。

5. 该强硬时要强硬

虽然我们希望 Agent 自主规划,但在某些严格的业务流程中(比如银行转账、审批流),Determinism(确定性)比“聪明”更重要。

如果必须按步骤走,直接在 Prompt 里显式命令:“Use the<skill name>skill.” 不要让模型去猜。

6. 开发环境与生产环境保持一致

OpenAI 的 Shell 工具支持云端托管,也支持本地运行(Local Shell)。

最佳实践:在本地开发调试(Local),因为它快且免费;测试通了之后,无缝迁移到云端(Hosted),享受稳定性和隔离性。保持 API 和 Skill 定义一致,迁移就是一行配置的事。

安全篇:不要裸奔

7. 网络访问要极其克制

Skills + Network = High Risk。如果一个 Agent 既能执行代码,又能随意访问互联网,它就有可能泄露数据。

原则:默认关闭网络。如果必须开,使用Allowlist(白名单),只允许访问特定的域名(如api.stripe.com)。

8. 区分“组织级”和“请求级”白名单

  • Org-level:公司允许访问的所有域名池(大圈)。

  • Request-level:当前这个具体任务只需要访问的域名(小圈)。

切记:Request-level 的权限永远要是 Org-level 的子集。

9. 绝不要把 API Key 写在 Prompt 里

使用domain_secrets机制。在 Prompt 里只用占位符(如$API_KEY),真实的密钥由底层系统在发起请求时自动注入。这样,模型本身永远不知道你的密码是什么。

10. 用/mnt/data作为“交接区”

Shell 里的文件系统是临时的,但/mnt/data是持久化的(在会话生命周期内)。

模式

  • Tool 写文件到/mnt/data

  • Model 读取/mnt/data进行分析。

  • User 最终从/mnt/data下载成果。

这是最清晰的数据流转方式。


One More Thing...

OpenAI 还悄悄发布了一个重磅更新:GPT-5.3-Codex-Spark

这是一个专为Real-time Coding(实时编程)设计的超快模型。

  • 极速体验:它运行在Cerebras的晶圆级引擎(Wafer Scale Engine 3)上,推理速度超过1000 tokens/秒

  • 定位:它不是用来替代 GPT-5.3-Codex 这种“深思熟虑”的大模型的,而是用来互补的。

    • Codex-Spark:负责实时的、交互式的代码修改,指哪打哪,几乎零延迟。

    • **Codex (Standard)**:负责复杂的、长程的架构设计和逻辑推理。

OpenAI 正在构建一个“快慢结合”的未来:在不久的将来,你的 IDE 里会有一个极速的 Spark 随时响应你的微小修改,而在后台,有一个强大的 Agent 在默默地为你重构整个项目。

总结:Agent 开发正在从“玩具探索”走向“工业实战”。Shell 给它手,Skills 给它脑,Compaction 给它记忆,而 Spark 给了它速度。


热点推荐

  • 终于等到!Draw.io 官方发布 MCP,这体验丝滑得不像话!

  • Claude Code 写了个 250KB 的开源库,真把 Node.js 搬进了浏览器

  • 炸裂!Claude Opus 4.6 与 GPT-5.3 同日发布:前端人的"自动驾驶"时刻到了?

  • 尤雨溪最新爆料,Vite 8 这一招太绝了,版本迁移效率原地起飞

  • Vue 核心团队出手!Anthony Fu 发布 Skills 仓库,斩获 3K Star,AI 编程进入「官方投喂」时代

  • Skills 乱麻了!这款开源神器彻底终结噩梦,Cursor/Claude 一键全同步

http://www.jsqmd.com/news/381264/

相关文章:

  • 最近发布的typescript 6.0有什么新能力
  • ChatGLM3-6B在电商场景的应用:智能客服系统
  • NBE | 薛宇团队突破传统解读瓶颈:人工智能混合框架“蓝猫”为海量组学数据注入“常识”与“机制”灵魂
  • 省心了! 降AI率工具 千笔·专业降AIGC智能体 VS WPS AI,研究生专属首选
  • IDEA + Groovy 脚本一键生成实体类:用法、原理与进阶实战
  • 本科生收藏!千笔ai写作,口碑爆棚的AI论文工具
  • Microbial Biotechnology | 贾保磊/陈焕-根际微生物群落在塑造作物理想株型中的作用
  • 干货来了:自考必备的降AIGC工具 —— 千笔·专业降AIGC智能体
  • 真的太省时间了!AI论文软件 千笔AI VS 灵感风暴AI
  • 2026年HIS系统推荐:智慧医疗趋势权威评测,涵盖临床与管理场景核心痛点分析 - 十大品牌推荐
  • 英语却在疯狂堆词汇,总量破百万
  • 程序员修炼之道笔记一
  • 购物卡换现金?超实用永辉卡回收指南 - 团团收购物卡回收
  • 科研党收藏!AI论文网站 千笔写作工具 VS 万方智搜AI,专科生写论文更省心!
  • 2026年热门的不锈钢护墙/不锈钢烤漆哪家专业工厂直供推荐 - 品牌宣传支持者
  • 永辉超市购物卡最优回收渠道推荐! - 团团收购物卡回收
  • 2026年HIS系统推荐:基于医院场景与成本痛点深度评测并附排名 - 十大品牌推荐
  • 哪家HIS系统厂商更可靠?2026年HIS系统推荐与评价,解决服务与稳定性痛点 - 十大品牌推荐
  • 本体论与智能运维
  • 2026年HIS系统推荐:多维度实测评价,针对系统稳定性与合规性核心痛点 - 十大品牌推荐
  • 2026年2月最新:这两款降AI工具我用了一学期,真心推荐
  • 2026年HIS系统推荐:智慧医疗趋势下的功能排名,涵盖临床与管理核心场景 - 十大品牌推荐
  • Qwen3-ForcedAligner-0.6B企业级应用:智能客服对话分析系统
  • 4块钱以内的降AI工具,哪个最靠谱?实测3款给你看
  • 2026年四川GPU服务器哪家靠谱?实力强劲 服务有保障 适配多行业需求 - 深度智识库
  • 图片旋转判断实战:一键解决照片倒置问题
  • 咸鱼流出299元全新英特尔11代拆机准系统笔记本,自带15.6寸1080P高清大屏,膜都未撕,还值得入手及使用吗?
  • Spark大数据处理:技术、应用与性能优化【1.3】
  • 2月饲料精选推荐榜:高效配方助力养殖业发展,专利饲料/母羊料/三七乳猪料/预混合饲料/开口料,饲料生产厂家口碑推荐 - 品牌推荐师
  • GPU租用兴起,正成为算力获取新主流