当前位置：首页 > news >正文

OpenAI GPT-5.4正式上线：推理、编程与智能体三合一，这家巨头终于想通了

news 2026/6/19 4:37:26

三月初，OpenAI 没搞预告片式的悬念，直接把 GPT-5.4 推了出来。从官方口径看，这是目前为止他们堆料最狠、效率最高的一代前沿模型。但普通用户更关心的其实是另一件事——以前要切来切去用的那些功能，这次是不是终于能在一个对话窗口里搞定了？

答案是肯定的。GPT-5.4 把高级推理、代码生成和智能体工作流硬塞进了一个统一系统，不再像过去那样，写代码得切到 Codex，搞复杂推理又得换别的专用模型。对百度SEO和AI从业者来说，这种"大一统"思路本身就意味着大模型竞争逻辑变了。

从"分工协作"到"一人成团"

过去一年多，OpenAI 的路线其实是"拆"。GPT-5.2 管通用对话，GPT-5.3-Codex 专啃代码，再加上各种插件和外部工具，用户手里像拿着一把瑞士军刀，功能都有，但得自己知道该掰哪一格。GPT-5.4 的思路反过来了：把 GPT-5.3-Codex 那套业界顶尖的编码能力，跟增强后的通用推理、原生计算机操作能力直接焊在一起。

这种整合带来的变化很实在。做表格、做演示文稿，或者跑那种需要十几步才能完成的复杂智能体任务，你不用再反复告诉模型"刚才做到哪了"。端到端的专业工作流，它自己能串起来。

在 ChatGPT 里，GPT-5.4 Thinking 模式加了个前置推理规划机制。说人话就是：模型正在想的时候，你可以直接插嘴打断、纠正方向，它不用从头再来。老一代推理模型最烦人的就是这点——中途改个需求，等于前功尽弃。现在这个实时可控性，用起来更像跟真人协作，而不是对着一台必须等它"想完"的机器。

跑分只是参考，关键看"能不能打"

发布大模型少不了刷榜，GPT-5.4 这次的数据确实硬。覆盖美国 GDP 前九大行业、44 种职业的 GDPval 测试里，它在 83% 的对比中达到或超过专业人员水平，比 GPT-5.2 的 70.9% 高出一大截。SWE-Bench Pro 公开榜拿到 57.7%，OSWorld-Verified 冲到 75.0%，BrowseComp 更是干到 82.7%。

法律 AI 公司 Harvey 的应用研究主管 Niko Grupen 放了个更具体的数字：在面向法律文档的 BigLaw Bench 评测中，GPT-5.4 得分 91%。法律文本向来是 NLP 的重灾区，术语多、逻辑链长、容错率低，这个分数说明模型对长文本的语义把握已经不只是"看懂"，而是接近专业级应用标准。

不过比跑分更有意思的是两个细节。一是 Toolathlon 54.6% 的成绩，比 GPT-5.2 的 46.3% 涨了不少，说明它调用外部工具、在多工具间切换的稳定性变强了。二是 OSWorld-Verified 的 75.0% 直接超过了人类基准 72.4%，这意味着在模拟操作系统环境里，模型靠"看"屏幕完成任务的能力已经不比人差。

原生计算机操作：模型开始"动手"了

GPT-5.4 是 OpenAI 第一个具备原生计算机操作能力的通用大模型。这句话听起来很技术，翻译一下就是：它能通过截图理解你的屏幕现状，然后用鼠标指令和键盘输入跟软件直接交互。

在 WebArena-Verified 环境里，它的浏览器操作成功率是 67.3%；到了 Online-Mind2Web 任务，仅靠截图观察就能拿到 92.8%。更夸张的是 Mainstay 公司的实测数据——CEO Dod Fraser 说，他们在近 3 万个房产门户任务里，GPT-5.4 首次尝试成功率达到 95%，完成速度是以前的 3 倍，token 消耗反而比前代计算机操作模型少了 70%。

对企业开发者来说，这组数字的潜台词很明确：以前用 AI 自动化流程，要么成功率不够得配人工兜底，要么烧 token 烧到心疼。现在这两块短板同时被补上了一块。

百万上下文与事实准确性：长任务和"胡说八道"问题同步改善

这次 API 直接支持 100 万 tokens 的上下文窗口，跟谷歌、Anthropic 的旗舰能力拉平。长上下文的意义不只是能塞进去一本小说，而是支撑智能体在长周期任务里不"失忆"。比如让一个 AI 连续处理几小时的财务报表分析，或者跟踪一个跨多页面的复杂项目，上下文断了就等于任务崩盘。

OpenAI 还强调了一件事：GPT-5.4 是他们事实准确性最高的一代。单条陈述错误率比 GPT-5.2 下降 33%，完整回复错误率下降 18%。在大模型落地过程中，"幻觉"一直是企业采购的拦路虎，这次把错误率压下来，比单纯涨跑分更能打动 B 端客户。

再加上 token 效率的提升——解决同样的推理问题，消耗的 token 更少，API 成本和响应速度双双受益。对于每天调用几十万次的生产环境，这笔账算下来很可观。

怎么用上？开放节奏有讲究

目前 GPT-5.4 Thinking 已经向 ChatGPT Plus、Team、Pro 订阅用户开放。OpenAI 的计划是未来三个月内让它逐步取代 GPT-5.2 Thinking，所以还在用老推理模型的用户，过渡期不算长。

开发者这边可以通过 OpenAI API 直接调用 GPT-5.4 和 GPT-5.4 Pro。Pro 版本面向需要海量算力处理复杂任务的用户，生产环境支持优先处理，token 生成速度更快。简单来说，普通任务用标准版，要跑重型工作流或者对延迟极度敏感的场景，Pro 是备选项。

写在最后

GPT-5.4 的发布，表面看是 OpenAI 又发了个更强的模型，深层逻辑其实是他们终于放弃"一个场景一个模型"的打法，转而押注统一架构。对行业来说，这种"全能型"路线如果跑通，后面小模型的生存空间会被进一步挤压。而对普通用户和企业而言，少切几次模型、少修几次幻觉、少付一点 token 费，才是实打实的体验升级。大模型的竞争，说到底还是要回到"能不能一口气把活干完"这个朴素标准上

查看全文

http://www.jsqmd.com/news/744757/