AI 数据中心移除 GPU 会怎样?从旧模式到无 GPU 架构的变革之路
AI 数据中心专为 GPU 而建,移除 GPU 会怎样?从旧模式到新架构的变革之路
过去几十年里,数据中心建设是大家熟知且可预测的公用工程实践,需配置计算服务器、连接存储阵列并构建网络,目标是降成本、提利用率。当时流量模式以南北向为主,少量东西向,网络设计处理突发流量,数据包丢失有 TCP/IP 重传,网站托管或云服务中轻微延迟可接受。
AI 训练改变模式
但 AI 训练改变了这一模式。在现代 AI 集群中,网络不再只是基础设施,而是直接决定加速器利用率。深度学习训练大型模型时,是庞大分布式超级计算机,数千个 GPU 持续交换参数,流量模式变为集群内部东西向通信,AI 工作负载执行特定通信模式,网络要处理“大象流”,这打破标准网络构建假设,关键指标从平均延迟变为作业完成时间和尾部延迟。因为深度学习训练工作负载同步执行,一个延迟数据包就可能让数千个 GPU 停滞。
传输层问题
AI 集群依赖的传输层放大对数据包延迟的敏感性。现代分布式训练用基于 RoCEv2 的 RDMA 技术,虽降低开销但对数据包丢失敏感,一个数据包丢失会触发重传等问题。为实现“丢包容忍”,RoCEv2 网络依赖优先级流控制(PFC),但这又引发“队首阻塞”问题,在持续负载下会导致无关流量被困,拥塞蔓延,队列深度增加,计算集群等待同步操作完成,GPU 会闲置。
硬件解决方案
为最大化 GPU 利用率,业界用投入硬件的方法,NVIDIA 的 InfiniBand 在 AI 数据中心占主导。它是原生无损网络,围绕确定性传输等特性构建。工程团队扩展集群要应对纵向扩展、横向扩展、跨数据中心互连三个维度。随着 NVIDIA 推出的完整机架,纵向扩展接近极限,未来将用 Connect - X NIC 连接不同机架。为管理大规模横向扩展网络,现代拓扑采用“轨道优化”,将网络架构划分为多个并行、隔离的物理交换平面,减少拥塞交互,提高故障隔离能力。
传统网络弱点
轨道优化架构暴露出传统网络弱点,传统路由协议无法有效处理。标准 IP 网络依靠等价多路径(ECMP)分配流量,在 Web 应用中有效,但 AI 流量产生“大象流”,ECMP 会导致冲突,使缓冲区压力增大等问题。现代 AI 交换机采用动态负载均衡和数据包分散机制,将大象流拆分成单个数据包并动态调度流量,这促使了超以太网联盟的诞生。
超以太网联盟
超以太网联盟对以太网全面重新架构,挑战 InfiniBand 同时保留以太网生态和规模经济优势。超以太网将智能引入传输层,引入原生数据包分散机制,在 NIC 层集成硬件级数据包重排序功能,推动采用虚拟输出队列等机制,减少队首阻塞等问题。与 InfiniBand 相比,超以太网有不同的网络特性、供应商情况、拥塞管理、成本与生态、互操作性、智能层面和技术机制。
Almartis 的新架构
InfiniBand 和超以太网都在解决大规模分布式深度学习的通信开销问题,但 Almartis 探索了另一种架构方向,围绕关联内存系统构建,强调结构化检索和组合内存操作,改变基础设施特征,可将数据中心简化为“无 GPU、无阻塞、单层全连接架构”,存储和计算在同一物理域运行。理想情况下,GPU 集群应是单层,且研究发现 GPU 流量有确定性,可移除轨道优化拓扑核心层。单层仅轨道集群的极限是 216 个 Blackwell Ultra GPU,其能耗是无 GPU 集群两倍多,但训练大语言模型能力有限。两种系统用途不同,Almartis 150 千瓦集群可从零开始训练具备常识的系统。
下一代 AI 基础设施的目标转变
过去 AI 网络挑战是高效扩展加速器同步,现在目标是最小化结构化内存系统的检索和协调延迟。下一代 AI 基础设施可能取决于架构降低对同步需求的问题。
Almartis,2026 年 5 月
