当前位置: 首页 > news >正文

硅谷一夜两弹! GPT-5.3-Codex狙击Claude 4.6, 奥特曼真急了

GPT-5.3-Codex的野心,早已溢出了代码框。随着这次发布,Codex也开始从单纯的写代码工具,转型为操作计算机并端到端完成工作的得力助手。OpenAI正在解锁更广阔的战场——从构建软件,到深度研究、复杂分析,乃至执行一切案头工作。

硅谷今夜难眠!

Claude Opus 4.6毫无征兆地深夜突袭,没想到,却让奥特曼措手不及。

作为回应,OpenAI仓促应战,不过半小时紧急祭出最强智能体编程模型——GPT-5.3-Codex。

没有GPT-5.3,只有GPT-5.3-Codex!

它完美融合了GPT-5.2-Codex顶尖编程能力与GPT-5.2卓越的推理及专业知识能力,且运行速度更提升了25%。

那些涉及深度研究、工具调用及复杂执行的长程任务,都能够轻松驾驭。

GPT-5.3-Codex就像一位并肩作战的同事,你可以在它工作时进行实时引导和互动,且完全无需担心上下文丢失。

值得一提的是,GPT-5.3-Codex还是首个在自身创造过程中发挥了关键作用的模型。

随着GPT-5.3-Codex的问世,Codex的角色发生了质的飞跃:

从一个只会编写和审查代码的AI智能体,进化为一个几乎能完成开发者和专业人士在计算机上能做的任何事情的AI智能体。

GPT-5.3-Codex现已加入ChatGPT付费计划,覆盖Codex所有应用场景:App、CLI、IDE扩展及Web端。

如今,整个硅谷成为了Anthropic和OpenAI双雄决战的「修罗场」,空气中都充满了火药味儿。

有趣的是,原本奥特曼在凌晨12点预告了新模型发布,却让Anthropic抢占了发布的先机。

一夜之间,两大最强编程AI怼脸PK,网友们纷纷吐槽,「简直跟不上AI迭代的速度了」。

GPT-5.3-Codex登场,编码更强了

GPT-5.3-Codex实力有多强,亮一亮成绩单就知道了。

软件工程新SOTA

GPT-5.3-Codex在评估现实世界软件工程的SWE-Bench Pro评测中,创下了行业新高。

与此同时,在衡量编程智能体终端技能的Terminal-Bench 2.0中,它的表现也远超此前的SOTA。

值得一提的是,GPT-5.3-Codex实现这一切所消耗的Token,比以往任何模型都要少得多。

相较于只测试Python的SWE-bench Verified,SWE-Bench Pro涵盖四种语言,不仅更能抵御数据污染,也更具挑战性、多样性和行业相关性

从0造出游戏

结合前沿的编程能力、美学和紧凑性的改进,GPT-5.3-Codex能产出惊人的成果,甚至能在几天内从零开始构建功能高度复杂的各类游戏和应用。

为了测试该模型的Web开发和长程智能体能力,OpenAI让GPT-5.3-Codex做了两款游戏:

Codex App发布时的赛车游戏第二版,以及一款潜水游戏。

利用开发Web游戏的技能以及预先选好的通用后续提示词(比如「修复bug」或「改进游戏」),GPT-5.3-Codex在数百万个Token的交互中,自主对游戏进行了迭代。

赛车游戏:包含不同的赛车手、八张地图,甚至还有可以用空格键触发的道具

潜水游戏:玩家可以在其中探索各种珊瑚礁,收集它们以完成你的鱼类图鉴,同时还要管理氧气

  • 更懂你的意图

相比GPT-5.2-Codex,当你让GPT-5.3-Codex制作日常网站时,它能更精准地理解你的意图。

对于简单或描述模糊的提示词,它现在默认会生成功能更丰富、设置更合理的网站,为你提供更优质的起步画布,助力创意落地。

  • GPT-5.3-Codex vs GPT-5.2-Codex

举个例子,同时要求GPT-5.3-Codex和GPT-5.2-Codex构建落地页。

GPT-5.3-Codex会自动将年度计划显示为折算后的月付价格,让折扣看起来清晰且经过精心设计,而不是简单地算出年度总额。

此外,它还制作了一个包含三条不同用户引语的自动切换证言轮播,而非单调的一条。这使得页面默认看起来更完整,更像是一个可以直接上线的产品。

GPT-5.3-Codex

GPT-5.2-Codex

提示词:

为Quiet KPI构建一个落地页,这是一个对创始人友好的每周指标摘要。美学风格采用柔和的SaaS风,玻璃质感卡片,薰衣草色到蓝色的渐变,微妙的模糊效果。板块包括:带有邮箱收集的首屏,示例报告卡片网格,集成列表行,客户证言轮播,月付/年付价格切换,常见问题解答,页脚。

  • 字体使用Satoshi或类似的几何无衬线字体。
  • 按钮采用圆角,14px半径,强烈的聚焦状态。
  • 添加一个有品位的基于滚动的显现效果。

超越编程的通用能力

软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。

GPT-5.3-Codex不仅为软件生命周期中的所有环节,如调试、部署、监控、编写PRD、编辑文案、用户研究、测试、指标等提供了支持。

而且,它还能帮用户构建任何想做的东西——不管是制作精美的幻灯片,还是在表格里进行复杂的数据分析。

在衡量专业知识工作的GDPval中,GPT-5.3-Codex表现出色,与GPT-5.2处于同一顶尖水平。

1. 财务建议幻灯片

2. 零售培训文档

3. NPV分析电子表格

4. 时尚演示PDF

  • 计算机使用能力

OSWorld是一个关于计算机使用的基准测试,要求智能体在可视化的桌面计算机环境中完成生产力任务。

在这里,GPT-5.3-Codex展现出远超之前GPT模型的计算机操作能力。

在OSWorld-Verified中,模型使用视觉来完成各种计算机任务(人类得分约为72%)

总之,这些在编程、前端、计算机操作和现实世界任务中的优异表现表明,GPT-5.3-Codex不仅在单项任务上表现更好,更是向单一通用智能体迈出的跨越性一步。

这意味着智能体已能够在全方位的现实世界技术工作中进行推理、构建和执行。

协同作战,还能中途喊停

随着模型能力越来越强,现在的挑战已经从「智能体能做什么」,变成了「人类如何轻松地与并行工作的多个智能体进行交互、指挥和监督」。

在GPT-5.3-Codex的加持下,操作过程的更新也会更加频繁。

这样,开发者就可以在它工作时随时掌握关键决策和进。

你不必干等着最终结果,而是可以实时交互——提问、讨论方法,并引导它走向解决方案。

GPT-5.3-Codex会把它的操作讲给你听,响应你的反馈,并让你从头到尾都全程同步。

自我加速迭代,接管研发工作流

现在的Codex,懂你意图,更懂效率。

OpenAI内部甚至出现了一种「套娃」式的进化:Codex正在加速Codex的诞生。

短短两个月,OpenAI的研究员和工程师们发现,工作方式已被彻底颠覆。

他们正在用GPT-5.3-Codex的早期版本,去训练、部署和优化现在的正式版。

这一波「自我进化」的实战成绩,相当炸裂:

  • 研究团队从监控训练运行、深挖交互模式,到给人类同事开发分析工具,Codex全程参与,不仅修Bug,还能提建议。
  • 工程团队它是最硬核的战友。无论是优化测试框架、定位缓存失效的根源,还是在流量洪峰中动态调度GPU集群,它都稳得住。
  • Alpha测试实战为了搞懂生产力差异,Codex自己写正则分类器,跑遍海量日志,直接甩出一份精准报告。面对反直觉数据,它联手数据科学家构建新管道。人类需要几小时?Codex只用了三分钟,就从数千个数据点中提炼出了关键洞察。

不止编程,更是全能操盘手

GPT-5.3-Codex的野心,早已溢出了代码框。

随着这次发布,Codex也开始从单纯的写代码工具,转型为操作计算机并端到端完成工作的得力助手。

OpenAI正在解锁更广阔的战场——从构建软件,到深度研究、复杂分析,乃至执行一切案头工作。

曾经,它的目标是做「最强编程智能体」; 现在,它是你电脑里无所不能的「通用协作者」。

Codex的适用边界被无限拓宽,而我们创造力的天花板,也将被彻底重写。

http://www.jsqmd.com/news/350720/

相关文章:

  • 合肥三十六行网络科技有限公司郑州分公司——郑州商家如何破局?专业代运营助力本地生活业绩飙升 - 野榜数据排行
  • 人工智能在数据管理中的投资回报率:炒作与可衡量的结果
  • MCP Apps引爆AI交互,ChatGPT渲染界面无需跳转
  • 2026年无锡民办高中推荐榜单:新吴区私立高中与综合高中实力解析,择校指南与口碑优选 - 品牌企业推荐师(官方)
  • TCP连接数限制与突破方法
  • OptiSystem应用:放大器泵浦功率效应
  • 基于 Clean Architecture + DDD 的轻量级工作流系统实践
  • 用于光栅仿真的非偏振光
  • 清单来了:10个降AI率工具测评对比,继续教育必备神器
  • 必收藏!程序员别慌!Java/C++/前端必看,大模型才是你的职业升级密码
  • 前端编程 课程十六、:CSS 盒子模型
  • 软著等了1年了,我打算上架google play
  • 收藏!2026年数据人必学技术:AI大模型才是破局关键(小白/程序员入门必看)
  • 必收藏!小白程序员入门大模型:别再把大模型和大语言模型混为一谈了
  • JAVA - 并发之不可变与享元
  • 必收藏!大模型推理优化实战指南(小白/程序员入门必备)
  • 新手也能上手!AI论文软件 千笔AI VS 万方智搜AI,本科生专属利器!
  • 锦州市英语雅思培训辅导机构推荐/2026权威出国雅思课程中心学校口碑排行榜 - 老周说教育
  • 2026年聚合物锂电池厂家推荐排行榜:无人机/医疗设备/智能门锁/电动工具等多元应用领域优质品牌深度解析 - 品牌企业推荐师(官方)
  • 封神实测gInk屏幕画笔,8大核心特色碾压付费款,教师/办公党闭眼冲不踩雷
  • 周五记-2026.2.6
  • 锦州市英语雅思培训辅导机构推荐、2026权威出国雅思课程中心学校口碑排行榜 - 老周说教育
  • 鼻前庭血管壁很脆弱,总是出鼻血怎么办、——鼻中隔右曲,会导致左边出鼻血吗?——基本上每天都会出,鼻子干,医生说结痂了,之前做过鼻内镜,现在还有必要做吗——推荐做电凝法-对于经常出血效果好于硝酸银法!!
  • 干货分享|零成本搭建CRM,蜘蛛表格3步搞定客户跟进,中小团队必备指南 - 蜘蛛小助理
  • 深入解析:Rust 中的数据结构选择与性能影响:从算法复杂度到硬件特性 [特殊字符]
  • 2026年2月徐州卧室套装/电视柜/装饰柜/储物柜/全屋定制/厂家推荐:行业洗牌期,谁是企业采购最优解? - 2026年企业推荐榜
  • 单片机控制单相电能计量电表设计
  • 降AI率实战:如何把40%的疑似率一次性降到10%以下 - 我要发一区
  • 为博客园注入现代 UI 体验:shadcn 皮肤上线
  • 锦州市英语雅思培训辅导机构推荐:2026权威出国雅思课程中心学校口碑排行榜 - 老周说教育