当前位置：首页 > news >正文

《从Colossus到开源生态：中美AI基础设施的路径分野》

news 2026/7/1 16:24:51

正文：
2025年，全球AI产业经历了一场前所未有的基础设施军备竞赛。美国这边，马斯克的xAI用122天建成了10万块H100 GPU的Colossus超算集群，又在92天内扩大到20万卡规模。OpenAI联合软银、甲骨文发起了号称5000亿美元的"星际之门"（Stargate）计划。而中国这边，DeepSeek用不到600万美元的训练成本，做出了比肩GPT-4的开源模型。
这不是简单的"谁更厉害"的问题，而是两条完全不同的技术路线选择了不同的答案。
美国的"大集群主义"
先看美国做了什么。
马斯克的Colossus集群堪称工程奇迹。从第一块GPU上架到集群投入使用，只用了122天。这背后是一整套极致工程化的部署体系：超微的液冷4U机架、400Gbps的BlueField-3 SuperNIC组网、特斯拉Megapack储能系统削峰填谷。据xAI工程师透露，他们在服务器上电前30天就完成了编译器适配，H100的矩阵计算单元利用率稳定在98.7%。
Colossus 2代更夸张——计划部署55万块GB200和GB300 GPU，目标成为"世界首个吉瓦级AI训练超算"。马斯克放话要在五年内把算力规模扩大到5000万张H100当量，耗资可能超过2万亿美元。
OpenAI那边也不遑多让。"星际之门"项目最初承诺四年内投入5000亿美元，第一个园区已经在德克萨斯州阿比林动工，规划容量1.2吉瓦。虽然2026年该项目传出扩建谈崩、策略转向"租而不建"的消息，但OpenAI与AWS签了七年380亿美元的云合同、与甲骨文签了五年超过3000亿美元的租赁协议——这些数字本身就是对"算力即权力"的最好注脚。
美国路线的核心逻辑：用不计成本的硬件投入换取模型性能的绝对领先。
中国的"开源生态主义"
与此同时，中国走了一条截然不同的路。
2025年初，DeepSeek R1的发布被视为全球AI开源运动的分水岭。这个MIT许可证下完全开源的模型，训练成本约558万美元——不到GPT-4的十分之一。R1不仅公开了推理路径和训练方法，还把之前锁在API背后的高级推理能力变成可下载、可微调的开源资产。
R1的影响是连锁性的。它打破了三个壁垒：
- **技术壁垒**：推理能力从专有API变成了可复现的工程产物
- **采纳壁垒**：MIT协议允许商业使用，企业可以直接集成到生产环境
- **心理壁垒**：证明了算力受限条件下依然能通过算法创新取得突破
随后，中国的开源生态快速爆发。据Hugging Face数据，2025年中国公司发布的开源模型数量呈指数级增长。百度从0增长到超过100个开源项目，字节跳动和腾讯的增长也达到8到9倍。智谱GLM、阿里通义千问（Qwen）、月之暗面Kimi K2等众多模型各据一方，形成了"多模型分散竞争、开源协作共生"的独特格局。
**中国路线的核心逻辑：用开源和生态协作降低门槛，靠模型多样性和快速迭代弥补单点算力劣势。**
两条路线的技术内涵对比
算力策略
维度美国路线中国路线
硬件投入大集群+自研芯片分布式+存量适配
芯片策略 H100/H200/B200 存量H800适配+国产芯片
网络架构 400Gbps RDMA+InfiniBand 受限下的通信优化
集群规模万卡→十万卡→百万卡千卡→万卡为主
DeepSeek的开源周（2025年2月）充分展示了"受限条件下的创新"：FlashMLA、DeepEP、DeepGEMM等底层库，都是针对H800等"减配卡"做的极致优化。因为美国的高端计算卡禁运，中国团队被迫把精力花在挖掘现有芯片的计算潜力上——这种"被迫创新"，反而催生了大量底层工程优化。
生态策略
美国延续了以OpenAI为中心的"单模型霸权"模式。GPT-4o到o1再到GPT-5，一直走的是"一个模型统治所有"的路线。代价是：开发者被锁定在单一生态中，定价权完全掌握在API提供方手中。
中国则走向了"聚合层+多模型"模式。因为模型厂商众多且各自独立，中间需要一层聚合网关来做统一接入。这就是One API这类开源项目发挥作用的地方——它充当了"AI模型的路由器"，让开发者用一个Key切换60+模型，把选择权还给用户。
这种模式天然适合生态碎片化的环境。当有10个模型厂商各自提供API时，开发者需要一个聚合层来降低集成成本。而当这个聚合层也是开源的，整个生态的进入门槛就更低了。
成本结构
OpenAI的GPT-4o调用成本一度是DeepSeek的数十倍。虽然两者模型能力有差距，但差距并不足以覆盖数十倍的成本差异。这导致大量中小开发者转向低成本方案，客观上加速了中国开源模型的采用。
一个有趣的交叉现象
2025年11月，美国发布的领先开源模型Cogito v2.1，本质上是基于DeepSeek-V3进行微调的产物。与此同时，xAI的Grok虽然闭源，但其训练中使用了大量开源工具链。而中国这边，阿里通义千问的QwQ-Max-Preview团队也明确表示，他们的优化思路部分借鉴了开源社区对R1的反向工程。
**"封锁"正在失效。** 信息是流动的，算法是共享的，开源协作不受地缘边界限制。
聚合层：被低估的基础设施
在这场中美AI竞赛中，有一个角色很少被讨论：**聚合网关**。
如果把大模型比作发电厂，聚合网关就是电网。没有电网，每个用户都要自己拉电线到发电厂。美国的"电网"是OpenAI和微软的Azure——一家独大，封闭可控。中国的"电网"则呈现出分散而开放的格局。
聚合网关的价值体现在三个层面：
1. **降低切换成本**：开发者只需要对接一次网关，后续改个model参数就能换模型
2. **统一计费运维**：不用在十多个平台间对账，所有计费集中在一点
3. **弹性负载均衡**：一个渠道拥堵时可以自动切换到另一家
这恰恰是中国的优势——模型多、价格战激烈、切换频繁，聚合层的需求比美国更迫切。
未来展望
两条路径各有优劣。
美国路线的优势是**集中力量办大事**。百万卡集群训练出的模型在绝对性能上有优势，特别是在数理推理、复杂代码生成等场景。但风险也很明显——单点故障、电力消耗巨大（Colossus 2代的电力需求据说需要十几个核电站）、投资回报周期漫长。
中国路线的优势是**生态弹性和成本控制**。开源生态降低了创新门槛，让更多参与者入场。但问题在于——缺乏统一的算力调度体系、各家模型能力参差不齐、聚合层的稳定性和性能仍需打磨。
但我认为，一个被很多人忽略的趋势是：**随着开源模型的不断进步，单纯依靠算力堆砌的"领先"会越来越难维持。** 如果开源模型以1/10的成本达到闭源模型90%~95%的能力，大部分商业场景会选择更经济实惠的方案。
这可能就是未来几年的格局：头部玩家（OpenAI、xAI）继续在最高端场景保持领先，而更广泛的应用层则被开源生态和聚合层承接。