当前位置: 首页 > news >正文

OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?

900 页保险单 100% 提取,一半 PR 出自 Agent。你还在手动调 LangChain 吗?

很多人已经开始感觉到不对劲了。

三个月前,GPT-5.4 带着原生 computer use 登场,模型能直接操作电脑了。但开发者很快发现一个问题:模型能点能敲,可 Agent 到底跑在哪台机器上?怎么保证它不乱删文件?怎么让它跑几个小时不断线?

这些基建问题,还是得自己东拼西凑。

今晚,OpenAI 把这个缺口堵上了。

不是小修小补,是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具,外加七家沙盒厂商一键接入。

一句话:OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦,然后把基建层直接铺到了所有人脚下。

这篇文章,我们从工程视角拆三件事:

这次到底改了什么
为什么说 LangChain 们无处可躲
你现在应该怎么做
目录

一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑
二、本质变化:OpenAI 把「基建」和「算力」拆开了
三、核心机制拆解:harness + 沙盒 + Manifest
四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent
五、工程落地启示:你的 Agent 架构该升级了
六、趋势判断:第三方框架往哪走

一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑
3 月初,GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入,跟人一样操作电脑。

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了,可 Agent 跑在哪台电脑上?用自己笔记本?那跑几小时的任务怎么办?用云服务器?环境怎么配?权限怎么隔离?跑崩了从哪恢复?

这些问题,OpenAI 当时一个都没解决。

开发者只能自己拼:LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来,还没写业务逻辑,基建已经堆了上千行。

这不是个例。过去一年,几乎所有做长周期 Agent 的团队都在重复造同一个轮子:一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚,OpenAI 把这个轮子直接塞进了 SDK。

二、本质变化:OpenAI 把「基建」和「算力」拆开了
这次升级,核心就两件事。

第一件:给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具(Codex 同款)、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单,熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践,全部产品化塞进了 SDK。

第二件:把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里,负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒,专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥,也没有任何敏感数据。甚至可以断开网络,零对外流量。

这不是安全加固。这是架构范式的迁移。

以前,Agent = 模型 + 提示词 + 工具调用。
现在,Agent = harness(控制流) + sandbox(执行环境) + 模型。

本质是:OpenAI 不再只卖模型推理,开始卖 Agent 的生产级运行底座。

三、核心机制拆解:harness + 沙盒 + Manifest
这次发布,技术上有三个点值得深挖。

  1. Manifest:一份配置清单,解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置:要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是,Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent,明天想换 Modal 跑,不改代码,只改一行配置。

官方给了最小示例,让一个 Agent 跑进本地沙盒,挂载财报目录,对比两年的财务指标,核心代码不到 20 行。

agent = SandboxAgent(
name="Dataroom Analyst",
model="gpt-5.4",
instructions="Answer using only files in data/. Cite source filenames.",
default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}),
)
20 行代码,完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写,至少 100 行起。

  1. 快照与状态恢复:掉线续命

长跑任务最怕什么?沙盒容器挂了,所有进度丢失,从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半,整个状态序列化保存。沙盒崩了,从最近检查点恢复,继续跑。

这不是 checkpoint 回调,是原生内建。

  1. 多沙盒并行 + 子 Agent 隔离:分身作战

一个任务拆成十个子任务,十个子任务分别跑在十个独立沙盒里,互不干扰。每个子 Agent 有自己的隔离环境,主 Agent 负责协调和汇总。

扩展性问题,原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent
数字比观点更有说服力。

案例一:900 页保险理赔记录,100% 提取

FurtherAI CTO 披露,他们的 Agent 啃下了一份 900 多页的保险理赔记录,提取成功率 100%。保险业的人知道,这是业内最难啃的文档之一,以前跑到某一页崩掉是常态。

案例二:公司一半 PR 出自 Agent

Modal 技术团队成员透露,Ramp 已经用 Modal 跑了一支后台编码 Agent 大军,公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露,内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点:在拿到成熟 Agent 基建之后,业务团队的生产力出现了断层式跃迁。

案例三:代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字:相同能力的 Agent,这次需要的代码量比以前少了 6 倍。

案例四:发票对账,第一轮就跑通

Box 开发者关系负责人传了一份业务数据,配上 bash/python 作为工具,让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事:以前只有头部公司才能攒出来的 Agent 基建,现在变成了 SDK 里开箱即用的默认配置。

人工智能技术学习交流群
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

image

五、工程落地启示:你的 Agent 架构该升级了
如果你现在还在用 LangChain 或自己手写 Agent 框架,这次发布应该让你重新思考三件事。

启示一:不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用,OpenAI 已经给出了官方实现。自己写的版本,大概率没有官方稳定,也没有官方迭代快。

除非你有极其特殊的编排需求,否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二:沙盒选型变成配置问题

以前,选沙盒意味着改代码。换了沙盒供应商,工具调用层要重写。现在,Manifest 一层抽象,沙盒选型变成改一行配置。

建议:本地开发用 UnixLocalSandboxClient,测试用 E2B,生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近,就切到哪家。

启示三:长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题,一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照,建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加,是架构上就依赖它。

下面这张图概括了新的 Agent 架构:

图片

核心变化:Harness 管脑子,Sandbox 管手脚。中间用 Manifest 解耦。

六、趋势判断:第三方框架往哪走
这次发布,对 Agent 生态的冲击才刚刚显露。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架,过去一年靠什么活着?靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作,这些都是第三方的主战场。

现在,OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复,Manifest 原生支持工具和沙盒管理,快照原生支持状态持久化。

第三方框架的空间,被压缩到两个方向:

往上走:垂直场景的 Agent 编排(比如只做客服 Agent、只做编码 Agent)
往下走:专用沙盒、专用工具、专用存储
夹在中间做通用 Agent 框架的,地板已经被 OpenAI 自己踩实了。

另外,OpenAI 口中的「兼容所有沙盒服务商」,本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴,明天可能就是「组件供应商」。

当然,目前还不完美。新能力首发只上了 Python,TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台,Agents SDK 给它配齐了真正的运行环境。下一步缺的,只是更多开发者把业务逻辑搭在这个基建之上。

推荐学习
测试智能体与智能化测试平台公开课, 从架构设计到大厂落地,重塑自动化测试力。
扫码进群,报名学习。

image

关于我们
霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。

同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。

http://www.jsqmd.com/news/655045/

相关文章:

  • 北京日式搬家全屋收纳整理搬家猫搬家电话400-627-6678 - 博客湾
  • 5分钟掌握网页视频下载:VideoDownloadHelper终极指南
  • 小红书数据采集终极指南:Python xhs库完整使用教程
  • 2026过滤器源头厂家/斜管填料厂家推荐-江苏鑫建晟环保,环保净水设备一站式选型 - 栗子测评
  • 2026磁铁定制厂家哪家好?非标磁性组件厂家有哪些?精密磁铁定制生产厂家+磁性组件定制厂家大盘点 - 栗子测评
  • Cadence Virtuoso VIVA波形分析:从背景色修改到线宽调整的完整指南
  • 基于STM32LXXX的无线收发芯片(LLCC68IMLTRT)应用程序设计
  • 终极指南:SSCom跨平台串口调试工具如何解决嵌入式开发痛点
  • 2026 年开美发店,美发店收银系统怎么选才高效便捷? - 记络会员管理软件
  • 04华夏之光永存:黄大年茶思屋榜文解法「第6期第4题」双精度+半精度混合在高阶PDE数值模拟中的收敛加速
  • Python 的协程机制原理解析
  • 拒绝做 AI 时代的“看客”:借力创富国际,捕捉全球科技溢价的入场券 - 速递信息
  • 从路由器到云端:一个Shell脚本搞定Linux公网上下行测速
  • 2026绍兴官方认证的企业微信服务商一览 - 品牌排行榜
  • 深入解析Ultrascale FPGA中ODELAYE3与IDELAYCTRL的协同仿真策略
  • Redis连接DB0查到DB3数据之谜
  • Unity小地图进阶:从基础渲染到UI美化的全流程实战
  • 从BIOS到UEFI:EFI分区与.efi文件如何重塑现代计算机启动?
  • YDFID-1色织物数据集:如何用AI技术革新纺织行业质检标准
  • Qwen3.5-9B-AWQ-4bit
  • 2026 广州番禺高端汽车贴膜与品质升级攻略:打造专属爱车的极致体验 - GrowthUME
  • 阿里云DataWorks离线同步实战:从本地MySQL到MySQL的数据迁移
  • CSS 电影票
  • 灰指甲加盟品牌哪个更可靠?
  • Reloaded-II实用指南:5步掌握高效游戏模组管理与故障排查
  • 基于STM32LXXX的无线收发芯片(S2-LPQTR)应用程序设计
  • 企业云盘私有化部署:存储架构设计与安全运维全流程实战
  • 深入理解计算机的“心脏”:从ALU设计看华中科大计组实验的精髓
  • 专业显卡驱动清理工具实战指南:Display Driver Uninstaller 深度解析与安全操作手册
  • GESP2023年12月认证C++三级( 第一部分选择题(9-15))