当前位置: 首页 > news >正文

AI 数据中心移除 GPU 会怎样?从旧模式到无 GPU 架构的变革之路

AI 数据中心专为 GPU 而建,移除 GPU 会怎样?从旧模式到新架构的变革之路

过去几十年里,数据中心建设是大家熟知且可预测的公用工程实践,需配置计算服务器、连接存储阵列并构建网络,目标是降成本、提利用率。当时流量模式以南北向为主,少量东西向,网络设计处理突发流量,数据包丢失有 TCP/IP 重传,网站托管或云服务中轻微延迟可接受。

AI 训练改变模式

但 AI 训练改变了这一模式。在现代 AI 集群中,网络不再只是基础设施,而是直接决定加速器利用率。深度学习训练大型模型时,是庞大分布式超级计算机,数千个 GPU 持续交换参数,流量模式变为集群内部东西向通信,AI 工作负载执行特定通信模式,网络要处理“大象流”,这打破标准网络构建假设,关键指标从平均延迟变为作业完成时间和尾部延迟。因为深度学习训练工作负载同步执行,一个延迟数据包就可能让数千个 GPU 停滞。

传输层问题

AI 集群依赖的传输层放大对数据包延迟的敏感性。现代分布式训练用基于 RoCEv2 的 RDMA 技术,虽降低开销但对数据包丢失敏感,一个数据包丢失会触发重传等问题。为实现“丢包容忍”,RoCEv2 网络依赖优先级流控制(PFC),但这又引发“队首阻塞”问题,在持续负载下会导致无关流量被困,拥塞蔓延,队列深度增加,计算集群等待同步操作完成,GPU 会闲置。

硬件解决方案

为最大化 GPU 利用率,业界用投入硬件的方法,NVIDIA 的 InfiniBand 在 AI 数据中心占主导。它是原生无损网络,围绕确定性传输等特性构建。工程团队扩展集群要应对纵向扩展、横向扩展、跨数据中心互连三个维度。随着 NVIDIA 推出的完整机架,纵向扩展接近极限,未来将用 Connect - X NIC 连接不同机架。为管理大规模横向扩展网络,现代拓扑采用“轨道优化”,将网络架构划分为多个并行、隔离的物理交换平面,减少拥塞交互,提高故障隔离能力。

传统网络弱点

轨道优化架构暴露出传统网络弱点,传统路由协议无法有效处理。标准 IP 网络依靠等价多路径(ECMP)分配流量,在 Web 应用中有效,但 AI 流量产生“大象流”,ECMP 会导致冲突,使缓冲区压力增大等问题。现代 AI 交换机采用动态负载均衡和数据包分散机制,将大象流拆分成单个数据包并动态调度流量,这促使了超以太网联盟的诞生。

超以太网联盟

超以太网联盟对以太网全面重新架构,挑战 InfiniBand 同时保留以太网生态和规模经济优势。超以太网将智能引入传输层,引入原生数据包分散机制,在 NIC 层集成硬件级数据包重排序功能,推动采用虚拟输出队列等机制,减少队首阻塞等问题。与 InfiniBand 相比,超以太网有不同的网络特性、供应商情况、拥塞管理、成本与生态、互操作性、智能层面和技术机制。

Almartis 的新架构

InfiniBand 和超以太网都在解决大规模分布式深度学习的通信开销问题,但 Almartis 探索了另一种架构方向,围绕关联内存系统构建,强调结构化检索和组合内存操作,改变基础设施特征,可将数据中心简化为“无 GPU、无阻塞、单层全连接架构”,存储和计算在同一物理域运行。理想情况下,GPU 集群应是单层,且研究发现 GPU 流量有确定性,可移除轨道优化拓扑核心层。单层仅轨道集群的极限是 216 个 Blackwell Ultra GPU,其能耗是无 GPU 集群两倍多,但训练大语言模型能力有限。两种系统用途不同,Almartis 150 千瓦集群可从零开始训练具备常识的系统。

下一代 AI 基础设施的目标转变

过去 AI 网络挑战是高效扩展加速器同步,现在目标是最小化结构化内存系统的检索和协调延迟。下一代 AI 基础设施可能取决于架构降低对同步需求的问题。

Almartis,2026 年 5 月

http://www.jsqmd.com/news/904391/

相关文章:

  • 微信群管理工具避坑指南 深度解析封号原因,合规工具才适合长期运维
  • 北京第一批改装专家之一 在京20几年 有专业的技术团队 波波改灯值得信赖 - 北京新语
  • 【Sora 2作品集视频生成实战指南】:20年AIGC专家亲授7大高保真提示工程技巧,错过再等一年
  • 2025南宁除甲醛公司Top5深度测评:绿舒环保稳居榜首 - 绿舒环保母婴除甲醛
  • 告别数据线!用XShell 7和Termux把你的安卓手机变成随身Linux服务器
  • Honey Select 2终极增强补丁:一站式游戏体验完整解决方案指南
  • 你的SSD移动硬盘速度跑不满?可能是USB接口和UASP协议没设置对(以三星T7为例)
  • 从‘上大学对收入的影响’说起:用Python和sklearn轻松复现倾向得分匹配(PSM)全流程
  • CentOS 8系统被‘锁死’?手把手教你修复因编译OpenSSL引发的libk5crypto.so.3符号缺失问题
  • 2026年北京除蟑螂能力最强天花板推荐公司:为什么北京祥尔生物值得重点关注? - 企业深度横评dyy6420
  • 2027年香港春季电子产品展Hong Kong Electronics Fair - 中国组团单位- 新天国际会展 - 新天国际会展
  • Unity UGUI ScrollRect循环滚动避坑指南:解决闪烁、抖动与GridLayout适配问题
  • Rust恐慌追踪性能优化:从2%开销到80%提升的实战解析
  • 基于ESP32与MicroPython的桌面多功能终端:蓝牙音箱时钟环境监测器DIY全攻略
  • 2026年深耕厂区能源回收领域,利用率领先的实力企业推荐 - 品牌2025
  • 抖音直播数据监听技术深度解析:流量拦截与实时消息处理架构揭秘
  • 蜗轮蜗杆减速机
  • 告别手动复位!用CPAL脚本的TestResetSignalValue函数,5分钟搞定ECU信号自动化复位
  • 如何快速搭建基于YOLOv8的实时视觉辅助系统:完整的多线程架构指南
  • ubuntu软件安装
  • 阴阳师智能管家:OnmyojiAutoScript 终极实战指南,轻松告别重复操作
  • UVa 319 Pendulum
  • 2026 彩屏智能开关哪家质量好:深度解析独家测评 - 思溯深度专栏
  • 【LeetCode 热题 100】盛最多水的容器
  • 开封本地黄金回收靠谱门店怎么选看这篇就够了 优选长悦 - 专业黄金回收
  • OpenClaw单工作空间多智能体系统构建:基于环境工程的85%上下文优化方案
  • MsgHelper:微信私域全链路管理工具,客服宝平替的技术选型分析
  • Ubuntu下Zabbix Proxy配置指南
  • Arm架构MPAM在SMMU中的实现与优化实践
  • CANoe测试效率翻倍:详解CPAL脚本中那些容易被忽略的IL控制函数