当前位置: 首页 > news >正文

抛弃英伟达?OpenAI 1000 Token/秒“提速狂飙”背后的算力暗战与效能妥协

一、 逃离英伟达围城:Cerebras 迎来的高光时刻

在硬件战略的棋局上,OpenAI 落下了一枚重磅且出人意料的棋子。他们正式推出了 GPT-5.3-Codex-Spark 模型,而这项发布最大的核心爆点不在于模型本身,而在于其运行的底座——这是 OpenAI 首款放弃传统英伟达 GPU,转而部署在 Cerebras 晶圆级芯片(Wafer Scale Engine 3 加速器)上的生产级 AI 模型

目前,基于 Cerebras 平台的 Codex‑Spark 已向 ChatGPT Pro 用户开放研究预览版。借由底层硬件的切换与系统级优化,该模型的运行速度达到了惊人的每秒 1000 个 Token。据 OpenAI 官方宣称,这一速度比早期版本快约 15 倍,能够为开发者带来极致流畅的实时交互式编码体验。

【笔者观点】
OpenAI 这一步棋极其“反常识”,却充满紧迫的战略威慑力。 当全行业仍在为英伟达的 H/B 系列算力卡抢破头时,奥特曼悄然将最吃吞吐量的生产级大模型搬到了 Cerebras 的晶圆级芯片上。这绝不仅仅是一次简单的硬件采购多元化,而是吹响了“推理侧去英伟达化”的号角。算力霸权的铜墙铁壁,正在被垂直场景(低延迟、高吞吐)的极速定制芯片硬生生撕开一道裂口。这也向全行业传递了一个明确的信号:大模型竞赛的下半场,推理成本与延迟的战争,GPU 已经不再是唯一解。

二、 速度与深度的博弈:重构代码生成的交互范式

为了实现真正的“实时交互式编码”,OpenAI 在 GPT-5.3-Codex-Spark 上进行了极其残酷的取舍。该模型被明确设定为优化低延迟与交互式编码工作流,战略性放弃了聚焦深度推理或通用任务。在 SWE-Bench Pro 和 Terminal-Bench 2.0 两项基准测试中,其性能仅介于 GPT-5.1-Codex-mini 与 GPT-5.3-Codex 之间,但耗时大幅缩减。

除了硬件加持,OpenAI 在软件栈底层的“狂飙”同样值得关注:引入持久化 WebSocket 连接、简化流式传输、重写推理栈关键代码。这套组合拳将客户端与服务器的单次往返开销暴降 80%,首 Token 生成时间(TTFT)腰斩 50%。

【笔者观点】
很多人陷入了“唯跑分论”的陷阱,认为牺牲模型的深度推理能力去换取速度是得不偿失的退步,这其实是一种极其短视的误判。 在真实的工程一线,开发者很多时候需要的不是一个思考一小时才能给出完美方案的“架构师”,而是一个能在一秒内完成 10 次语法修改、界面重构的“结对编程副手”。当首 Token 延迟压缩到人类近乎无感的毫秒级,人机协作的模式将从传统的“一问一答”彻底演变为“神经反射式”的共生。在特定场景下,极致的速度本身,就是一种颠覆性的智能。

三、 公关数字的泡沫与开发者的真实倒戈

尽管 OpenAI 宣称了极其华丽的提速数据,但这场“狂飙”在开发者社区却引发了剧烈的两极分化与质疑。

一方面,极客社区的声音显得格外犀利。Reddit 用户 Tystros 明确表达了对“降智提速”的抵触:“如果完成任务需要一小时但结果更好,我愿意等一小时”;而另一派用户(如 stobak)则认为,超快模型能大幅削减反复试错迭代带来的隐性累积成本。

更致命的打假来自 X 平台的研究者 Nicholas Van Landschoot。他毫不客气地戳破了“提速 15 倍”的公关泡沫——在实际基准测试中,真实性能提升仅接近 1.37 倍。所谓的 15 倍,只是 OpenAI 玩了一个偷换概念的把戏:他们拿新模型去对比了旧版 Codex 中一个刻意延长推理时间以提升准确性的特殊配置(x-high)。

【笔者观点】
永远不要对硅谷的公关修辞照单全收。 1.37 倍的真实提升与 15 倍的宣传口径之间,折射出的是 AI 巨头在技术瓶颈期急于制造里程碑的焦虑。更危险的信号在于用户口碑的撕裂:天下武功唯快不破的前提,是你的方向得对。如果模型生成的代码充满了逻辑漏洞,那 1000 Token/秒的速度不过是在“加速制造工业垃圾”。OpenAI 必须清醒地认识到,Cerebras 带来的速度狂欢,只是一剂缓解交互阵痛的“局部止痛药”,它无法掩盖大模型在复杂推理上进化的停滞。GPU 依然是核心,而在速度与智能的钢丝绳上,稍有不慎,就会跌入虚假繁荣的深渊。


👇 欢迎关注我的公众号

在 AI 爆发的深水区,我们一起探索真正能穿越周期的技术价值。
微信搜索 【睿见新世界】 或扫描下方二维码,获取每周硬核技术推文:

微信图片_20260301232734_225_35.jpg

欢迎关注【睿见新世界】

http://www.jsqmd.com/news/452837/

相关文章:

  • 边缘计算和云计算相结合
  • 体验重庆火锅魅力:从锅底到食材的精选推荐,特色美食/美食/社区火锅/火锅/火锅店,火锅品牌推荐 - 品牌推荐师
  • 岐金兰说:空论是意义哲学的元哲学
  • 14、端口映射
  • 2026惯性导航系统(INS)厂家排行,这些品牌脱颖而出,振动传感器,惯性导航系统(INS)厂家推荐排行 - 品牌推荐师
  • GDOI2026 游记
  • 2026年闭式冷却塔厂家推荐:工业冷却塔/不锈钢冷却塔/循环水凉水塔厂家精选 - 品牌推荐官
  • 线程池的拒绝策略有哪些?
  • 打开网站显示581 Exceeding the maximum execution hop count 超过最大执行跳数错误怎么办|已解决
  • 加油卡线上回收指南:实用技巧和省钱心得 - 团团收购物卡回收
  • 打开网站显示524 A timeout occurred 出现超时错误怎么办|已解决
  • 打开网站显示582 Version retrieval failed 获取版本失败错误怎么办|已解决
  • 2026年3月上海优质金属屋面防水服务商综合测评 - 2026年企业推荐榜
  • 2026年寻人服务优质机构推荐榜:成都商务调查公司/成都寻人公司/成都找人公司/四川商务调查公司/四川寻人公司/选择指南 - 优质品牌商家
  • 2026短视频下载工具优质推荐榜 - 优质品牌商家
  • 闲置话费卡别浪费!高效回收渠道推荐,让你安心变现 - 团团收购物卡回收
  • 2026话费卡回收攻略:推荐靠谱的渠道和专业平台! - 团团收购物卡回收
  • kingbase 如何查看存储过程有哪些
  • 谈谈话费卡回收的那些事儿:最热门渠道推荐! - 团团收购物卡回收
  • 精选话费卡回收渠道推荐,轻松变现你的闲置资源! - 团团收购物卡回收
  • .net8
  • 深入解析:三、C语言流程控制:分支与循环
  • 什么是net8
  • 13、IKUAI路由器
  • Java 流(Stream)、文件(File)和IO详解
  • 打开网站显示596 Configuration pull failed 配置拉取失败错误怎么办|已解决
  • 话费卡回收渠道推荐:如何快速找到可靠的回收平台? - 团团收购物卡回收
  • 打开网站显示521 Web server is down 源站已关闭错误怎么办|已解决
  • 打开网站显示523 Origin is unreachable 无法访问源站错误怎么办|已解决
  • 加油卡回收平台怎么选?推荐高口碑平台及注意事项 - 团团收购物卡回收