当前位置：首页 > news >正文

OpenAI 深夜王炸！GPT-5.3 极速版发布，更甩出 10 条 Agent“保命”军规

news 2026/3/26 18:17:31

OpenAI 刚刚发布了一篇极具实战价值的技术博客，名为"Shell + Skills + Compaction: Tips for long-running agents that do real work"。

这篇文章的核心观点非常直接：我们正在从单轮对话的 Assistant 时代，跨越到能持续运行数小时、处理真实工作流的 Agent 时代。

要实现这一跨越，光靠 Prompt Engineering（提示词工程）已经不够了，我们需要的是更系统化的System Engineering（系统工程）。OpenAI 提出了构建稳定 Agent 的三大核心原语：

Skills（技能）：把复杂的任务拆解为可复用的、版本化的 SOP（标准作业程序）。
Shell（终端）：给 AI 一个真实的执行环境，让它能安装依赖、运行代码、生成文件。
Compaction（压缩）：自动管理超长上下文，让 Agent 能够“一直跑下去”而不爆内存。

结合这三大原语，OpenAI 总结了 10 条经过实战检验的“军规”。无论你是正在开发 AI 应用的工程师，还是对 Agent 架构感兴趣的产品经理，这些经验都价值连城。

什么是“真正干活”的 Agent？

以前的 AI 助手，更像是“聊天机器人”。你问它一个问题，它回答你，结束。

现在的 Agent，需要像一个真实员工一样工作：

不仅仅是回答，而是去执行（Execute）。
不仅仅是一次性交互，而是连续数小时甚至数天的长程任务（Long-running）。
不仅仅是处理文本，而是处理文件、数据、代码，并产出实际的工作成果（Artifacts）。

为了支撑这种“重活”，OpenAI 给出了全新的架构思路。

核心三剑客：Skills, Shell, Compaction

1. Skills：Agent 的“技能包”

不要把所有的 Prompt 都塞进 System Prompt 里！那样不仅贵，而且容易让模型“精神错乱”。

Skills就像是给 Agent 安装的“驱动程序”或“技能书”。它是一个包含SKILL.md（定义指令）和相关文件的文件夹。只有当 Agent 觉得需要用某个技能时，它才会去“加载”这个技能的详细说明。

2. Shell：Agent 的“工作台”

光说不练假把式。Shell让 Agent 拥有了一个真实的 Linux 终端环境。它可以在里面：

安装 Python 库（pip install）。
运行数据分析脚本。
生成并保存文件（如 Excel 报表、PDF 文档）。

这是 Agent 从“想”到“做”的关键一步。

3. Compaction：Agent 的“长期记忆”

长任务最大的敌人是 Context Window（上下文窗口）限制。Compaction技术就像是定期整理大脑。当对话历史太长时，它会自动在后台将前面的内容进行“摘要压缩”，保留关键信息，丢弃冗余细节。这样，Agent 就能在有限的上下文空间里，维持无限期的连续工作。

OpenAI 的 10 条实战

基于 Codex 和内部 Agent 的开发经验，OpenAI 分享了以下 10 条避坑指南：

设计篇：让 Agent 更聪明地选择

1. 把 Skill 描述写成“路由逻辑”，而不是“广告文案”

Skill 的description字段是写给模型看的，不是给用户看的。

❌ 错误写法：“这是一个强大的数据分析工具，可以帮您洞察数据背后的秘密。”
✅ 正确写法：“当用户需要分析 CSV/Excel 文件，或需要生成图表时使用此技能。不要在用户仅仅询问定义时使用。”

技巧：在描述里明确写上 **"Use when..."**（什么时候用）和 **"Don't use when..."**（什么时候别用）。

2. 用“负面示例”防止误触发

有时候 Agent 会过度积极地调用工具。解决办法是在 Prompt 或 Skill 定义中加入Negative Examples（负面示例）。

Glean（一家企业搜索公司）在实战中发现，加上“什么情况不调用”的示例后，Agent 的误调用率降低了 20%！

3. 把模板和示例藏在 Skill 里

不要在 System Prompt 里塞满各种 JSON 模板或 Few-shot 示例。把它们放进SKILL.md里。

好处：只有当这个 Skill 被选中时，这些 tokens 才会被加载。平时不占用上下文，既省钱又让主 Prompt 更清爽。

执行篇：让 Agent 更稳定地运行

4. 长任务要“从一而终”

对于长程任务，确保 Agent 在同一步骤中复用同一个 Container（容器）。这样，你在第一步安装的库、生成的中间文件（/mnt/data），在第十步还能找得到。配合 Compaction，这是实现“多日任务”的基础。

5. 该强硬时要强硬

虽然我们希望 Agent 自主规划，但在某些严格的业务流程中（比如银行转账、审批流），Determinism（确定性）比“聪明”更重要。

如果必须按步骤走，直接在 Prompt 里显式命令：“Use the<skill name>skill.” 不要让模型去猜。

6. 开发环境与生产环境保持一致

OpenAI 的 Shell 工具支持云端托管，也支持本地运行（Local Shell）。

最佳实践：在本地开发调试（Local），因为它快且免费；测试通了之后，无缝迁移到云端（Hosted），享受稳定性和隔离性。保持 API 和 Skill 定义一致，迁移就是一行配置的事。

安全篇：不要裸奔

7. 网络访问要极其克制

Skills + Network = High Risk。如果一个 Agent 既能执行代码，又能随意访问互联网，它就有可能泄露数据。

原则：默认关闭网络。如果必须开，使用Allowlist（白名单），只允许访问特定的域名（如api.stripe.com）。

8. 区分“组织级”和“请求级”白名单

Org-level：公司允许访问的所有域名池（大圈）。
Request-level：当前这个具体任务只需要访问的域名（小圈）。

切记：Request-level 的权限永远要是 Org-level 的子集。

9. 绝不要把 API Key 写在 Prompt 里

使用domain_secrets机制。在 Prompt 里只用占位符（如$API_KEY），真实的密钥由底层系统在发起请求时自动注入。这样，模型本身永远不知道你的密码是什么。

10. 用/mnt/data作为“交接区”

Shell 里的文件系统是临时的，但/mnt/data是持久化的（在会话生命周期内）。

模式：

Tool 写文件到/mnt/data。
Model 读取/mnt/data进行分析。
User 最终从/mnt/data下载成果。

这是最清晰的数据流转方式。

One More Thing...

OpenAI 还悄悄发布了一个重磅更新：GPT-5.3-Codex-Spark。

这是一个专为Real-time Coding（实时编程）设计的超快模型。

极速体验：它运行在Cerebras的晶圆级引擎（Wafer Scale Engine 3）上，推理速度超过1000 tokens/秒！
定位：它不是用来替代 GPT-5.3-Codex 这种“深思熟虑”的大模型的，而是用来互补的。
- Codex-Spark：负责实时的、交互式的代码修改，指哪打哪，几乎零延迟。
- **Codex (Standard)**：负责复杂的、长程的架构设计和逻辑推理。

OpenAI 正在构建一个“快慢结合”的未来：在不久的将来，你的 IDE 里会有一个极速的 Spark 随时响应你的微小修改，而在后台，有一个强大的 Agent 在默默地为你重构整个项目。

总结：Agent 开发正在从“玩具探索”走向“工业实战”。Shell 给它手，Skills 给它脑，Compaction 给它记忆，而 Spark 给了它速度。