5 月 26 日的技术圈,两条看似不相关的消息放在一起看,拼出了 AI 工程化当前最真实的处境。一边是方法论在进化——开发者社区讨论**从 Vibe Coding 到 SDD(Spec-Driven Development)**的范式迁移。另一边是账单在爆炸——**HBM 内存成本已占 AI 芯片的 2/3**,Uber 四个月就花光了全年 AI 预算。一边在变聪明,一边在变贵。这就是 2026 年 AI 工程化的"冰与火"。## 火:从 Vibe Coding 到 SDD,AI 编程的第四纪元先说说这个进化链条。社区里有人梳理了 AI Coding 的四个阶段:| 时代 | 模式 | 典型场景 | 问题 | |------|------|----------|------| | 1.0 自动补全 | Tab 补全下一行 | GitHub Copilot 早期 | 只能写一行,没有上下文 | | 2.0 对话式 | Chat 里让 AI 写代码 | Cursor/Copilot Chat | 需要大量 prompt,反复修改 | | 3.0 Vibe Coding | 描述感觉,AI 全权实现 | "帮我做一个 CRM" | 生成快,但不可控、不可维护 | | 4.0 SDD | 先写 Spec,AI 按规范实现 | OpenCode/Claude Code + SPEC | 可控、可验证、可复现 |Vibe Coding 的问题已经暴露得很清楚了:**你描述的是"感觉",AI 生成的是"代码",但两者之间的鸿沟要靠无数次反复对话来填。** 生成一个能用的功能只要 2 分钟,但把它改对、改稳、改到能上线,可能要多花 2 天。SDD 的思路是反过来的:**先定义"对"是什么,再让 AI 去实现。** 不是"给我写个登录",而是"这是登录模块的 Spec:支持邮箱/手机号双因子、密码错误 5 次锁定 30 分钟、支持 OAuth2.0 协议、返回符合 RFC 6749 的 token"。AI 拿着这份 Spec 干活,每次生成后自动跑 Spec 里定义的测试用例——**通过就是通过,没通过就是没通过,不用人来判断"感觉对不对"。**这不是理论。OpenAI 的 Symphony SPEC、Anthropic 的 Claude Code Design Token、以及社区里涌现的 `SPEC.md` 实践,都在往这个方向走。核心转变是:**人类从"写代码的人"变成"写验收标准的人"**。这个角色变化,才是 AI Coding 真正成熟的标志。## 火:谷歌 AI 一夜连破 9 道数学难题今天另一个不能忽略的信号:DeepMind 的智能体一口气解决了 9 个 Erdős 问题——这些问题人类数学家 56 年都没解出来。每次解一道要花几百美元的推理成本,但跟人类投入的时间相比简直可以忽略。这件事的意义不在于数学本身,而在于它验证了一个模式:**当推理成本降到某个阈值以下,"AI 做研究"就从不可能变成了划算。** 以前我们说 AI 只能辅助,是因为让它认真思考一个问题太贵。现在这个等式在翻转。## 冰:HBM 吃掉 2/3 的芯片成本翻到另一面,美光的警告很刺耳:AI 需求暴涨导致存储芯片紧缺,HBM 内存成本已经占到 AI 芯片组件成本的 2/3。一台 AI 服务器的成本结构正在被重写——算力芯片本身不再是最大的开销,**给它喂数据的高速内存才是。**这意味着什么?意味着算力成本下降的红利,正在被内存成本吃掉。模型降价 ≠ AI 变便宜,因为运行模型的硬件总成本可能在涨。## 冰:Uber 四个月烧光全年 AI 预算另一个让人清醒的数字来自 Uber 总裁:公司四个月就花光了全年的 AI 预算,并公开质疑 AI 投入的合理性。这不是个案。国内几家大厂的 AI 预算也普遍超支 30%-50%。背后的逻辑很简单:**单个 token 便宜没用,Agent 的 token 消耗是指数级的。** 一个 Agent 调用一次 MCP 工具,可能就是几千 token 的往返;多 Agent 协作,消耗直接翻倍。降价的速度追不上用量增长的速度。## 冰火之间:一个开发者的视角这两条线放在一起看,结论其实很清楚:**AI 编程的方法论在进化(SDD),但 AI 使用的成本还没有收敛。** 作为开发者,能做的事情是:1. **拥抱 SDD,丢掉 Vibe Coding。** 如果你还在用"感觉"驱动 AI 写代码,趁早切换到 Spec 驱动。先写验收标准,再让 AI 实现,能省下大量反复修改的时间(和时间背后的 token 费)。2. **把 AI 当成"昂贵的实习生"来管理。** 给它清晰的任务定义、可验证的输出标准、以及有限的工具权限。不要让 AI 自由发挥——自由发挥的成本比你想象的高得多。3. **关注硬件成本结构的变化。** HBM 紧缺意味着云端推理成本短期不会大幅下降。如果你的场景可以在本地跑(llama.cpp、llamafile),认真考虑本地推理——虽然单次慢一点,但边际成本为零。2026 年的 AI 工程化,已经不是"要不要用 AI"的问题,而是"怎么用才不破产"的问题。