当前位置：首页 > news >正文

抛弃英伟达？OpenAI 1000 Token/秒“提速狂飙”背后的算力暗战与效能妥协

news 2026/7/5 8:10:26

一、逃离英伟达围城：Cerebras 迎来的高光时刻

在硬件战略的棋局上，OpenAI 落下了一枚重磅且出人意料的棋子。他们正式推出了 GPT-5.3-Codex-Spark 模型，而这项发布最大的核心爆点不在于模型本身，而在于其运行的底座——这是 OpenAI 首款放弃传统英伟达 GPU，转而部署在 Cerebras 晶圆级芯片（Wafer Scale Engine 3 加速器）上的生产级 AI 模型。

目前，基于 Cerebras 平台的 Codex‑Spark 已向 ChatGPT Pro 用户开放研究预览版。借由底层硬件的切换与系统级优化，该模型的运行速度达到了惊人的每秒 1000 个 Token。据 OpenAI 官方宣称，这一速度比早期版本快约 15 倍，能够为开发者带来极致流畅的实时交互式编码体验。

【笔者观点】
OpenAI 这一步棋极其“反常识”，却充满紧迫的战略威慑力。 当全行业仍在为英伟达的 H/B 系列算力卡抢破头时，奥特曼悄然将最吃吞吐量的生产级大模型搬到了 Cerebras 的晶圆级芯片上。这绝不仅仅是一次简单的硬件采购多元化，而是吹响了“推理侧去英伟达化”的号角。算力霸权的铜墙铁壁，正在被垂直场景（低延迟、高吞吐）的极速定制芯片硬生生撕开一道裂口。这也向全行业传递了一个明确的信号：大模型竞赛的下半场，推理成本与延迟的战争，GPU 已经不再是唯一解。

二、速度与深度的博弈：重构代码生成的交互范式

为了实现真正的“实时交互式编码”，OpenAI 在 GPT-5.3-Codex-Spark 上进行了极其残酷的取舍。该模型被明确设定为优化低延迟与交互式编码工作流，战略性放弃了聚焦深度推理或通用任务。在 SWE-Bench Pro 和 Terminal-Bench 2.0 两项基准测试中，其性能仅介于 GPT-5.1-Codex-mini 与 GPT-5.3-Codex 之间，但耗时大幅缩减。

除了硬件加持，OpenAI 在软件栈底层的“狂飙”同样值得关注：引入持久化 WebSocket 连接、简化流式传输、重写推理栈关键代码。这套组合拳将客户端与服务器的单次往返开销暴降 80%，首 Token 生成时间（TTFT）腰斩 50%。

【笔者观点】
很多人陷入了“唯跑分论”的陷阱，认为牺牲模型的深度推理能力去换取速度是得不偿失的退步，这其实是一种极其短视的误判。 在真实的工程一线，开发者很多时候需要的不是一个思考一小时才能给出完美方案的“架构师”，而是一个能在一秒内完成 10 次语法修改、界面重构的“结对编程副手”。当首 Token 延迟压缩到人类近乎无感的毫秒级，人机协作的模式将从传统的“一问一答”彻底演变为“神经反射式”的共生。在特定场景下，极致的速度本身，就是一种颠覆性的智能。

三、公关数字的泡沫与开发者的真实倒戈

尽管 OpenAI 宣称了极其华丽的提速数据，但这场“狂飙”在开发者社区却引发了剧烈的两极分化与质疑。

一方面，极客社区的声音显得格外犀利。Reddit 用户 Tystros 明确表达了对“降智提速”的抵触：“如果完成任务需要一小时但结果更好，我愿意等一小时”；而另一派用户（如 stobak）则认为，超快模型能大幅削减反复试错迭代带来的隐性累积成本。

更致命的打假来自 X 平台的研究者 Nicholas Van Landschoot。他毫不客气地戳破了“提速 15 倍”的公关泡沫——在实际基准测试中，真实性能提升仅接近 1.37 倍。所谓的 15 倍，只是 OpenAI 玩了一个偷换概念的把戏：他们拿新模型去对比了旧版 Codex 中一个刻意延长推理时间以提升准确性的特殊配置（x-high）。

【笔者观点】
永远不要对硅谷的公关修辞照单全收。 1.37 倍的真实提升与 15 倍的宣传口径之间，折射出的是 AI 巨头在技术瓶颈期急于制造里程碑的焦虑。更危险的信号在于用户口碑的撕裂：天下武功唯快不破的前提，是你的方向得对。如果模型生成的代码充满了逻辑漏洞，那 1000 Token/秒的速度不过是在“加速制造工业垃圾”。OpenAI 必须清醒地认识到，Cerebras 带来的速度狂欢，只是一剂缓解交互阵痛的“局部止痛药”，它无法掩盖大模型在复杂推理上进化的停滞。GPU 依然是核心，而在速度与智能的钢丝绳上，稍有不慎，就会跌入虚假繁荣的深渊。

👇 欢迎关注我的公众号

在 AI 爆发的深水区，我们一起探索真正能穿越周期的技术价值。
微信搜索 【睿见新世界】 或扫描下方二维码，获取每周硬核技术推文：