当前位置：首页 > news >正文

OpenAI 悄悄重写 Agents SDK：生产级 Agent 底座来了，LangChain 们还怎么活？

news 2026/8/3 19:08:26

900 页保险单 100% 提取，一半 PR 出自 Agent。你还在手动调 LangChain 吗？

很多人已经开始感觉到不对劲了。

三个月前，GPT-5.4 带着原生 computer use 登场，模型能直接操作电脑了。但开发者很快发现一个问题：模型能点能敲，可 Agent 到底跑在哪台机器上？怎么保证它不乱删文件？怎么让它跑几个小时不断线？

这些基建问题，还是得自己东拼西凑。

今晚，OpenAI 把这个缺口堵上了。

不是小修小补，是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具，外加七家沙盒厂商一键接入。

一句话：OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦，然后把基建层直接铺到了所有人脚下。

这篇文章，我们从工程视角拆三件事：

这次到底改了什么
为什么说 LangChain 们无处可躲
你现在应该怎么做
目录

一、现象：GPT-5.4 能操作电脑了，但 Agent 没地方跑
二、本质变化：OpenAI 把「基建」和「算力」拆开了
三、核心机制拆解：harness + 沙盒 + Manifest
四、典型案例：900 页保单 100% 提取，一半 PR 来自 Agent
五、工程落地启示：你的 Agent 架构该升级了
六、趋势判断：第三方框架往哪走

一、现象：GPT-5.4 能操作电脑了，但 Agent 没地方跑
3 月初，GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入，跟人一样操作电脑。

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了，可 Agent 跑在哪台电脑上？用自己笔记本？那跑几小时的任务怎么办？用云服务器？环境怎么配？权限怎么隔离？跑崩了从哪恢复？

这些问题，OpenAI 当时一个都没解决。

开发者只能自己拼：LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来，还没写业务逻辑，基建已经堆了上千行。

这不是个例。过去一年，几乎所有做长周期 Agent 的团队都在重复造同一个轮子：一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚，OpenAI 把这个轮子直接塞进了 SDK。

二、本质变化：OpenAI 把「基建」和「算力」拆开了
这次升级，核心就两件事。

第一件：给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具（Codex 同款）、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单，熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践，全部产品化塞进了 SDK。

第二件：把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里，负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒，专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥，也没有任何敏感数据。甚至可以断开网络，零对外流量。

这不是安全加固。这是架构范式的迁移。

以前，Agent = 模型 + 提示词 + 工具调用。
现在，Agent = harness（控制流） + sandbox（执行环境） + 模型。

本质是：OpenAI 不再只卖模型推理，开始卖 Agent 的生产级运行底座。

三、核心机制拆解：harness + 沙盒 + Manifest
这次发布，技术上有三个点值得深挖。

Manifest：一份配置清单，解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置：要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是，Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent，明天想换 Modal 跑，不改代码，只改一行配置。

官方给了最小示例，让一个 Agent 跑进本地沙盒，挂载财报目录，对比两年的财务指标，核心代码不到 20 行。

agent = SandboxAgent(
name="Dataroom Analyst",
model="gpt-5.4",
instructions="Answer using only files in data/. Cite source filenames.",
default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}),
)
20 行代码，完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写，至少 100 行起。

快照与状态恢复：掉线续命

长跑任务最怕什么？沙盒容器挂了，所有进度丢失，从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半，整个状态序列化保存。沙盒崩了，从最近检查点恢复，继续跑。

这不是 checkpoint 回调，是原生内建。

多沙盒并行 + 子 Agent 隔离：分身作战

一个任务拆成十个子任务，十个子任务分别跑在十个独立沙盒里，互不干扰。每个子 Agent 有自己的隔离环境，主 Agent 负责协调和汇总。

扩展性问题，原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

四、典型案例：900 页保单 100% 提取，一半 PR 来自 Agent
数字比观点更有说服力。

案例一：900 页保险理赔记录，100% 提取

FurtherAI CTO 披露，他们的 Agent 啃下了一份 900 多页的保险理赔记录，提取成功率 100%。保险业的人知道，这是业内最难啃的文档之一，以前跑到某一页崩掉是常态。

案例二：公司一半 PR 出自 Agent

Modal 技术团队成员透露，Ramp 已经用 Modal 跑了一支后台编码 Agent 大军，公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露，内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点：在拿到成熟 Agent 基建之后，业务团队的生产力出现了断层式跃迁。

案例三：代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字：相同能力的 Agent，这次需要的代码量比以前少了 6 倍。

案例四：发票对账，第一轮就跑通

Box 开发者关系负责人传了一份业务数据，配上 bash/python 作为工具，让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事：以前只有头部公司才能攒出来的 Agent 基建，现在变成了 SDK 里开箱即用的默认配置。

人工智能技术学习交流群
伙伴们，对AI测试、大模型评测、质量保障感兴趣吗？我们建了一个「人工智能测试开发交流群」，专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索，都欢迎扫码加入，一起抱团成长！期待与你交流！👇

五、工程落地启示：你的 Agent 架构该升级了
如果你现在还在用 LangChain 或自己手写 Agent 框架，这次发布应该让你重新思考三件事。

启示一：不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用，OpenAI 已经给出了官方实现。自己写的版本，大概率没有官方稳定，也没有官方迭代快。

除非你有极其特殊的编排需求，否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二：沙盒选型变成配置问题

以前，选沙盒意味着改代码。换了沙盒供应商，工具调用层要重写。现在，Manifest 一层抽象，沙盒选型变成改一行配置。

建议：本地开发用 UnixLocalSandboxClient，测试用 E2B，生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近，就切到哪家。

启示三：长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题，一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照，建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加，是架构上就依赖它。

下面这张图概括了新的 Agent 架构：

图片

核心变化：Harness 管脑子，Sandbox 管手脚。中间用 Manifest 解耦。

六、趋势判断：第三方框架往哪走
这次发布，对 Agent 生态的冲击才刚刚显露。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架，过去一年靠什么活着？靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作，这些都是第三方的主战场。

现在，OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复，Manifest 原生支持工具和沙盒管理，快照原生支持状态持久化。

第三方框架的空间，被压缩到两个方向：

往上走：垂直场景的 Agent 编排（比如只做客服 Agent、只做编码 Agent）
往下走：专用沙盒、专用工具、专用存储
夹在中间做通用 Agent 框架的，地板已经被 OpenAI 自己踩实了。

另外，OpenAI 口中的「兼容所有沙盒服务商」，本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴，明天可能就是「组件供应商」。

当然，目前还不完美。新能力首发只上了 Python，TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台，Agents SDK 给它配齐了真正的运行环境。下一步缺的，只是更多开发者把业务逻辑搭在这个基建之上。

推荐学习
测试智能体与智能化测试平台公开课，从架构设计到大厂落地，重塑自动化测试力。
扫码进群，报名学习。

关于我们
霍格沃兹测试开发学社，隶属于测吧（北京）科技有限公司，是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开，内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设，包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设，同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法，沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外，学社还参与测试工程人才培养体系建设，面向高校提供测试实训平台与实践支持，组织开展 “火焰杯” 软件测试相关技术赛事，并探索以能力为导向的人才培养模式，包括高校学员先学习、就业后付款的实践路径。

同时，学社结合真实行业需求，为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务，用于个性化能力提升与工程实践指导。

查看全文

http://www.jsqmd.com/news/655045/

北京日式搬家全屋收纳整理搬家猫搬家电话400-627-6678 - 博客湾

5分钟掌握网页视频下载：VideoDownloadHelper终极指南

小红书数据采集终极指南：Python xhs库完整使用教程

2026磁铁定制厂家哪家好?非标磁性组件厂家有哪些?精密磁铁定制生产厂家+磁性组件定制厂家大盘点 - 栗子测评

Cadence Virtuoso VIVA波形分析：从背景色修改到线宽调整的完整指南

基于STM32LXXX的无线收发芯片（LLCC68IMLTRT）应用程序设计

终极指南：SSCom跨平台串口调试工具如何解决嵌入式开发痛点

2026 年开美发店，美发店收银系统怎么选才高效便捷？ - 记络会员管理软件

04华夏之光永存：黄大年茶思屋榜文解法「第6期第4题」双精度+半精度混合在高阶PDE数值模拟中的收敛加速

Python 的协程机制原理解析

拒绝做 AI 时代的“看客”：借力创富国际，捕捉全球科技溢价的入场券 - 速递信息

从路由器到云端：一个Shell脚本搞定Linux公网上下行测速

2026绍兴官方认证的企业微信服务商一览 - 品牌排行榜

深入解析Ultrascale FPGA中ODELAYE3与IDELAYCTRL的协同仿真策略

Redis连接DB0查到DB3数据之谜

Unity小地图进阶：从基础渲染到UI美化的全流程实战

从BIOS到UEFI：EFI分区与.efi文件如何重塑现代计算机启动？

YDFID-1色织物数据集：如何用AI技术革新纺织行业质检标准

Qwen3.5-9B-AWQ-4bit

2026 广州番禺高端汽车贴膜与品质升级攻略：打造专属爱车的极致体验 - GrowthUME

阿里云DataWorks离线同步实战：从本地MySQL到MySQL的数据迁移

CSS 电影票

灰指甲加盟品牌哪个更可靠？

Reloaded-II实用指南：5步掌握高效游戏模组管理与故障排查

基于STM32LXXX的无线收发芯片（S2-LPQTR）应用程序设计

企业云盘私有化部署：存储架构设计与安全运维全流程实战

深入理解计算机的“心脏”：从ALU设计看华中科大计组实验的精髓

专业显卡驱动清理工具实战指南：Display Driver Uninstaller 深度解析与安全操作手册

GESP2023年12月认证C++三级( 第一部分选择题（9-15））

相关文章：