当前位置: 首页 > news >正文

OpenAI GPT-5.4正式上线:推理、编程与智能体三合一,这家巨头终于想通了

三月初,OpenAI 没搞预告片式的悬念,直接把 GPT-5.4 推了出来。从官方口径看,这是目前为止他们堆料最狠、效率最高的一代前沿模型。但普通用户更关心的其实是另一件事——以前要切来切去用的那些功能,这次是不是终于能在一个对话窗口里搞定了?

答案是肯定的。GPT-5.4 把高级推理、代码生成和智能体工作流硬塞进了一个统一系统,不再像过去那样,写代码得切到 Codex,搞复杂推理又得换别的专用模型。对百度SEO和AI从业者来说,这种"大一统"思路本身就意味着大模型竞争逻辑变了。

从"分工协作"到"一人成团"

过去一年多,OpenAI 的路线其实是"拆"。GPT-5.2 管通用对话,GPT-5.3-Codex 专啃代码,再加上各种插件和外部工具,用户手里像拿着一把瑞士军刀,功能都有,但得自己知道该掰哪一格。GPT-5.4 的思路反过来了:把 GPT-5.3-Codex 那套业界顶尖的编码能力,跟增强后的通用推理、原生计算机操作能力直接焊在一起。

这种整合带来的变化很实在。做表格、做演示文稿,或者跑那种需要十几步才能完成的复杂智能体任务,你不用再反复告诉模型"刚才做到哪了"。端到端的专业工作流,它自己能串起来。

在 ChatGPT 里,GPT-5.4 Thinking 模式加了个前置推理规划机制。说人话就是:模型正在想的时候,你可以直接插嘴打断、纠正方向,它不用从头再来。老一代推理模型最烦人的就是这点——中途改个需求,等于前功尽弃。现在这个实时可控性,用起来更像跟真人协作,而不是对着一台必须等它"想完"的机器。

跑分只是参考,关键看"能不能打"

发布大模型少不了刷榜,GPT-5.4 这次的数据确实硬。覆盖美国 GDP 前九大行业、44 种职业的 GDPval 测试里,它在 83% 的对比中达到或超过专业人员水平,比 GPT-5.2 的 70.9% 高出一大截。SWE-Bench Pro 公开榜拿到 57.7%,OSWorld-Verified 冲到 75.0%,BrowseComp 更是干到 82.7%。

法律 AI 公司 Harvey 的应用研究主管 Niko Grupen 放了个更具体的数字:在面向法律文档的 BigLaw Bench 评测中,GPT-5.4 得分 91%。法律文本向来是 NLP 的重灾区,术语多、逻辑链长、容错率低,这个分数说明模型对长文本的语义把握已经不只是"看懂",而是接近专业级应用标准。

不过比跑分更有意思的是两个细节。一是 Toolathlon 54.6% 的成绩,比 GPT-5.2 的 46.3% 涨了不少,说明它调用外部工具、在多工具间切换的稳定性变强了。二是 OSWorld-Verified 的 75.0% 直接超过了人类基准 72.4%,这意味着在模拟操作系统环境里,模型靠"看"屏幕完成任务的能力已经不比人差。

原生计算机操作:模型开始"动手"了

GPT-5.4 是 OpenAI 第一个具备原生计算机操作能力的通用大模型。这句话听起来很技术,翻译一下就是:它能通过截图理解你的屏幕现状,然后用鼠标指令和键盘输入跟软件直接交互。

在 WebArena-Verified 环境里,它的浏览器操作成功率是 67.3%;到了 Online-Mind2Web 任务,仅靠截图观察就能拿到 92.8%。更夸张的是 Mainstay 公司的实测数据——CEO Dod Fraser 说,他们在近 3 万个房产门户任务里,GPT-5.4 首次尝试成功率达到 95%,完成速度是以前的 3 倍,token 消耗反而比前代计算机操作模型少了 70%。

对企业开发者来说,这组数字的潜台词很明确:以前用 AI 自动化流程,要么成功率不够得配人工兜底,要么烧 token 烧到心疼。现在这两块短板同时被补上了一块。

百万上下文与事实准确性:长任务和"胡说八道"问题同步改善

这次 API 直接支持 100 万 tokens 的上下文窗口,跟谷歌、Anthropic 的旗舰能力拉平。长上下文的意义不只是能塞进去一本小说,而是支撑智能体在长周期任务里不"失忆"。比如让一个 AI 连续处理几小时的财务报表分析,或者跟踪一个跨多页面的复杂项目,上下文断了就等于任务崩盘。

OpenAI 还强调了一件事:GPT-5.4 是他们事实准确性最高的一代。单条陈述错误率比 GPT-5.2 下降 33%,完整回复错误率下降 18%。在大模型落地过程中,"幻觉"一直是企业采购的拦路虎,这次把错误率压下来,比单纯涨跑分更能打动 B 端客户。

再加上 token 效率的提升——解决同样的推理问题,消耗的 token 更少,API 成本和响应速度双双受益。对于每天调用几十万次的生产环境,这笔账算下来很可观。

怎么用上?开放节奏有讲究

目前 GPT-5.4 Thinking 已经向 ChatGPT Plus、Team、Pro 订阅用户开放。OpenAI 的计划是未来三个月内让它逐步取代 GPT-5.2 Thinking,所以还在用老推理模型的用户,过渡期不算长。

开发者这边可以通过 OpenAI API 直接调用 GPT-5.4 和 GPT-5.4 Pro。Pro 版本面向需要海量算力处理复杂任务的用户,生产环境支持优先处理,token 生成速度更快。简单来说,普通任务用标准版,要跑重型工作流或者对延迟极度敏感的场景,Pro 是备选项。

写在最后

GPT-5.4 的发布,表面看是 OpenAI 又发了个更强的模型,深层逻辑其实是他们终于放弃"一个场景一个模型"的打法,转而押注统一架构。对行业来说,这种"全能型"路线如果跑通,后面小模型的生存空间会被进一步挤压。而对普通用户和企业而言,少切几次模型、少修几次幻觉、少付一点 token 费,才是实打实的体验升级。大模型的竞争,说到底还是要回到"能不能一口气把活干完"这个朴素标准上

http://www.jsqmd.com/news/744757/

相关文章:

  • 别再凭感觉选MOS管驱动电压了!手把手教你从Datasheet曲线图找到VGS最佳值
  • 3种强力方案解决GoPro相机在go2rtc中的自动休眠问题
  • 破解CUDA版本迷宫:让bitsandbytes在复杂环境中优雅运行
  • 可靠酱肉小笼包品牌怎么选?2026热门推荐揭秘,酱肉小笼包/非遗红油小笼包/包子/小笼包,酱肉小笼包加盟口碑推荐分析 - 品牌推荐师
  • 零成本部署GPT-3.5 API代理:Aurora项目实战与安全调优指南
  • 从防御者视角复盘:我如何用Apache配置和WAF规则,堵住CTFHub里这些文件上传的坑
  • YOLO11涨点优化:Neck二次创新 | 引入GFPN (泛化特征金字塔),更密集的跳跃连接带来更丰富的语义表达
  • APK安装器技术深度解析:Windows平台安卓应用安装架构设计与实现指南
  • STM32F4 RTC时钟不准?手把手教你校准LSE晶振和配置后备域(含CubeMX配置)
  • 终极Windows组策略编辑解决方案:Policy Plus让所有版本都能享受专业级配置
  • 告别‘黑盒’:深入5G UPF,看GTP-U协议如何管理海量数据隧道
  • 3个步骤解锁Windows文件管理超能力:FileMeta让每个文件都“会说话“
  • Windows Server提权后渗透指南:用Juicy Potato拿到SYSTEM权限后该做什么?
  • 2026年想找口碑好的太极养生堂?哪家才是最佳选择! - GrowthUME
  • MCP协议实战:构建AI智能体的认知记忆与安全工具链
  • ARM流水线架构与指令周期优化指南
  • 山东融谷信息聚焦数字孪生交付,低成本高质量领跑数字孪生项目落地 - 词元智算
  • 2026年艺术设计类论文降AI工具推荐:设计类毕业论文降AI率知网通过完整实测指南 - 还在做实验的师兄
  • 容器化K8s运维利器:dtzar/helm-kubectl镜像实战指南
  • APK Installer完整指南:3分钟在Windows上安装Android应用
  • Windows上安装APK的完美解决方案:告别模拟器,体验原生级安装效率
  • 告别Rufus!一个U盘搞定Win11、Ubuntu、PE,Ventoy保姆级配置教程(含绕过TPM指南)
  • APK安装器:Windows上运行Android应用的终极解决方案
  • 终极Linux键盘音效神器:keysound完整配置指南
  • AI赋能创意:利用快马多模型生成“众乐乐”官网高级交互动效与智能组件
  • 绝地求生智能辅助优化:从新手到高手的实战进阶指南
  • Playwright爬虫进阶:5个提升数据采集效率的‘骚操作’(监听API、屏蔽图片、伪装设备)
  • 独立开发者如何借助Taotoken按需调用模型并控制预算
  • 2026年论文初稿AI率超80%急救攻略:免费工具组合极速降AI极限情况完整应对方案 - 还在做实验的师兄
  • CSDN博客备份实战指南:3步实现技术文章批量下载与本地化管理