当前位置: 首页 > news >正文

超以太网联盟挑战英伟达:AI算力网络开放标准之战

1. 项目概述:一场针对AI算力网络的“合纵连横”

最近,圈子里讨论得沸沸扬扬的一件事,就是由英特尔、微软、AMD、博通、Meta等一众科技巨头牵头,联合成立了“超以太网联盟”。这个阵仗,明眼人一看就知道,是冲着英伟达在AI和高性能计算领域的“护城河”——InfiniBand网络去的。简单来说,他们想用大家更熟悉、生态更开放的以太网,来重新定义未来AI集群的“血管系统”,目标是打造一个性能不输甚至超越InfiniBand,但成本更低、更开放、更容易部署的网络方案。这不仅仅是技术路线的竞争,更是一场关于未来数据中心基础设施话语权的争夺战。对于所有从事云计算、数据中心、AI基础设施,甚至是普通开发者来说,理解这场变革背后的逻辑,都至关重要。

2. 为什么是现在?AI算力网络的需求变迁

要理解UEC为何出现,必须先看清当前AI训练对网络提出的苛刻要求。这不再是传统的网页浏览或文件传输,而是成千上万个GPU协同作战的“超级工程”。

2.1 传统网络的“阿喀琉斯之踵”

在传统的分布式训练中,尤其是像训练GPT-4这类万亿参数大模型时,计算过程被切分成无数个小步骤,分散在数千个GPU上。每个计算步骤结束后,所有GPU都需要通过高速网络交换中间数据(梯度、参数),然后才能开始下一步。这里就出现了一个关键瓶颈:尾部延迟

你可以把整个GPU集群想象成一个流水线工厂,每个GPU是一个工位。流水线的速度不取决于最快的工位,而取决于最慢的那个。在网络通信阶段,最后一个收到数据的GPU,决定了整个集群何时能进入下一轮计算。如果网络不稳定,哪怕只有一个GPU因为网络拥塞或丢包而延迟了几微秒,整个价值数千万甚至上亿美元的算力集群,其利用率就会大打折扣。这就是所谓的“木桶效应”,而网络就是那块最短的板。

2.2 英伟达的解决方案:InfiniBand与NCCL

英伟达的应对策略是软硬件一体化的垂直整合。其核心是两大法宝:

  1. InfiniBand网络:一种专为高性能计算设计的网络技术,原生支持远程直接内存访问(RDMA),允许GPU绕过CPU直接访问其他GPU的内存,极大降低了延迟。配合其专用的交换机(如Quantum系列)和网卡,能构建出低延迟、高带宽的无损网络。
  2. NCCL库:英伟达开发的集合通信库,针对其GPU和InfiniBand网络进行了深度优化,能高效调度GPU间的通信。

这套组合拳效果显著,让英伟达在高端AI训练市场几乎形成了垄断。但问题也随之而来:封闭、昂贵、生态锁定。InfiniBand的生态系统相对封闭,主要玩家就是英伟达(收购Mellanox后),这导致了采购成本高,且用户被绑定在单一供应商的技术栈上,缺乏选择权和议价能力。

2.3 以太网的机遇与挑战

与此同时,以太网是数据中心绝对的霸主,拥有最广泛的设备供应商、最成熟的运维工具和最具规模效应的成本优势。从1G、10G、25G、100G再到如今的400G、800G,以太网的发展路线清晰且迅猛。很多云服务商和大型互联网公司,其数据中心内部早已是“全以太网”架构。

以太网并非不能用于HPC/AI,但其传统的TCP/IP协议栈在处理大规模、高并发、低延迟的AI通信时显得力不从心。TCP的拥塞控制、按序交付、重传机制在极端压力下会成为性能杀手。为此,业界发展出了RoCE,即在以太网上承载RDMA协议,试图结合以太网的普及性和RDMA的高性能。

但RoCE(特别是RoCEv2)有一个致命前提:它需要一个无损网络。这意味着网络不能丢包,一旦丢包,性能就会断崖式下跌。为了构建无损网络,需要启用PFC、ECN等流控机制,这大大增加了网络配置的复杂性和运维难度,稍有不慎就会引发“PFC死锁”等全局性问题。此外,RoCE对多路径负载均衡的支持也不够友好。

> 注意:这里的关键矛盾在于,AI工作负载渴望的是极致的性能和确定性,而传统以太网+TCP/IP或RoCE的方案,要么性能不够,要么为了追求性能而牺牲了可管理性和弹性。UEC正是瞄准了这个痛点,试图在保留以太网生态优势的前提下,从协议层进行“外科手术式”的革新。

3. 超以太网联盟的技术蓝图:不只是“修修补补”

UEC的目标非常明确:不是另起炉灶发明一个新网络,而是对以太网进行“定向增强”,使其原生适应AI/HPC工作负载。其技术工作覆盖了从物理层到软件层的完整堆栈。

3.1 核心创新:UEC传输协议

这是UEC技术栈中最核心的一环,旨在替代或增强现有的RoCE协议。根据已披露的信息,UEC传输协议的设计哲学包含了以下几个关键突破点:

  1. 拥抱多路径与数据包喷洒:传统TCP或RoCE的流通常绑定在一条路径上。UEC传输协议会主动利用网络中的多条等价路径,将单个数据流的数据包“喷洒”到所有可用路径上。这不仅能最大化利用网络总带宽,还能避免单条路径拥塞导致的尾部延迟激增。想象一下,原本一条十车道的高速公路只开放一条车道给你,现在全部开放,通行效率自然飙升。
  2. 支持乱序交付与按序完成:既然数据包可以通过不同路径传输,到达接收端的顺序就无法保证。UEC传输协议允许数据包乱序到达,但在提交给上层应用时,可以提供按序完成的保证。这解耦了网络传输顺序和应用程序逻辑顺序,极大地提升了并发性。接收端网卡或驱动需要更大的缓冲区来重组乱序包,这对硬件设计提出了新要求。
  3. 现代拥塞控制机制:UEC强调要开发更智能的、基于端到端遥测的拥塞控制算法。它不再依赖传统的、反应式的丢包检测(如TCP的AIMD),而是通过交换机主动发出的精确拥塞通知,或者接收端对延迟变化的敏锐感知,来提前调整发送速率,实现“防患于未然”。目标是让流能够快速爬升到线速,同时与其他流公平共享带宽,且无需针对特定网络拓扑进行繁琐的参数调优。
  4. 可扩展至百万端点:面向未来的超大规模AI集群(如10万甚至百万GPU级别),UEC协议从设计之初就考虑了极致的可扩展性。这涉及到寻址、路由表、连接状态管理等诸多方面的重新设计,确保在规模膨胀时,控制平面的开销不会成为瓶颈。
  5. 脱离对无损网络的强依赖:这是与RoCE最大的区别之一。UEC传输协议设计为在有损网络上也能高效工作。它通过更高效的丢包检测和快速重传机制,使得偶尔的丢包不会导致性能灾难,从而降低了对网络交换机PFC等无损特性的强制要求,简化了网络部署和运维。

3.2 分层协作与生态构建

UEC的工作并非只停留在传输层。联盟下设了物理层、链路层、传输层、软件层四个工作组,进行系统性的协作:

  • 物理/链路层:致力于定义如何支持800G、1.6T及更高速率的以太网信号,并优化其用于AI工作负载时的特性,例如更低的误码率和更精确的时序同步。
  • 软件层:这是让开发者用起来的关键。UEC将定义标准的API(很可能以库的形式提供),让AI框架(如PyTorch, TensorFlow)和应用程序能够方便地调用UEC传输协议的高级功能,如乱序交付、多路径感知等,而无需关心底层网络细节。同时,管理、编排、安全、存储等软件栈也需要适配新的网络语义。

> 实操心得:任何一项新技术的成功,标准与生态的重要性不亚于技术本身。UEC选择在Linux基金会下运作,并强调开放规范和互操作性测试,就是为了避免碎片化。只有形成像传统以太网那样“任何厂商的网卡能插在任何厂商的交换机上并用任何厂商的软件管理”的繁荣生态,才能真正挑战现有格局。

4. 对行业格局的潜在冲击与机遇

UEC的出现,无疑在数据中心和AI算力市场投下了一颗重磅炸弹,其影响将是多层次和深远的。

4.1 对英伟达:冲击与反制

最直接的冲击对象无疑是英伟达。其凭借InfiniBand在高端AI市场建立的“网络壁垒”受到了正面挑战。如果UEC成功,用户将多出一个高性能、开放且可能更具成本效益的选择。

  • 市场格局可能重塑:云服务商(如微软Azure、谷歌云,虽然谷歌未在创始名单,但大概率会跟进)和大型互联网公司(如Meta)一直有强烈的动机降低基础设施成本并避免供应商锁定。UEC若成熟,他们将很可能在其数据中心大规模部署基于UEC的以太网方案,逐步替代或与InfiniBand混合部署,从而削弱英伟达的议价能力。
  • 英伟达的应对策略:英伟达绝不会坐以待毙。可能的反制措施包括:1)加速InfiniBand的迭代,推出性能更强、成本更优的新品;2)在软件生态上加深护城河,例如进一步优化NCCL,并使其与CUDA生态绑定得更紧;3)也可能在适当时机以某种形式参与或影响UEC标准,毕竟完全被排除在主流标准之外对任何巨头都是危险的。

4.2 对其他硬件厂商:新的竞技场

对于英特尔、AMD、博通、思科、Arista等UEC创始成员来说,这是一个巨大的机遇。

  • 英特尔/AMD:作为CPU和GPU(英特尔有GPU,AMD有GPU和CPU)厂商,他们需要一个高性能的开放网络来连接自己的处理器,以打造能与英伟达DGX系统竞争的完整解决方案。UEC是他们打破英伟达“网络+GPU”捆绑销售的关键棋子。
  • 博通/思科/Arista:这些网络设备巨头是传统以太网市场的王者。UEC将高性能计算市场的大门向他们彻底敞开。他们可以销售支持UEC协议的高端交换机、网卡,抢占原本属于InfiniBand的市场份额。博通的Tomahawk系列交换机芯片、思科的Silicon One,都将成为UEC网络的核心硬件基础。
  • 光模块与线缆供应商:800G、1.6T光模块和高速电缆的需求将随着UEC部署而激增,整个产业链都将受益。

4.3 对最终用户与开发者:更多的选择与更低的门槛

对于企业和研究机构而言,这是利好。

  • 成本有望降低:开放的竞争通常会导致价格下降。以太网设备的规模效应和多家供应商的竞争,可能会使构建大型AI集群的网络成本低于专有的InfiniBand方案。
  • 避免供应商锁定:用户可以根据性价比自由选择不同品牌的网卡、交换机和软件,不再被单一供应商“套牢”。
  • 运维更统一:如果数据中心能够统一采用增强型以太网,那么运维团队只需要维护一套网络技术栈,而不是同时管理以太网和InfiniBand两套截然不同的系统,复杂度和成本都会下降。
  • 对开发者的影响:标准的、高性能的网络API将简化分布式AI应用的开发。开发者可以更专注于算法本身,而不是耗费大量精力进行底层的通信优化。

5. 挑战与未来展望:前路并非坦途

尽管前景光明,但UEC要取得成功,仍面临一系列严峻挑战。

5.1 技术整合的复杂性

UEC并非一个单一的协议,而是一整套从物理层到应用层的规范集。将这些规范整合成一个稳定、高效、可互操作的整体系统,需要巨大的工程努力。各成员公司之间如何协调技术路线、平衡各自利益,将是一大考验。

5.2 生态建设的漫漫长路

英伟达的CUDA+InfiniBand+NCCL生态是经过十多年耕耘建立的。UEC需要从零开始构建一个同样强大的软件生态。这包括:

  • 稳定可靠的驱动和固件。
  • 与主流AI框架(PyTorch, TensorFlow, JAX)的深度集成。
  • 成熟的管理、监控、诊断工具链。
  • 广泛的ISV(独立软件开发商)支持。

5.3 性能的终极考验

一切都要用性能说话。UEC方案必须在真实的、超大规模AI训练工作负载中,证明其端到端的性能(特别是尾部延迟)和稳定性能够媲美甚至超越优化到极致的InfiniBand方案。这需要大量的基准测试和实际部署验证。

5.4 时间窗口

市场不会等待太久。英伟达在快速迭代,各大公司对AI算力的需求呈指数级增长。UEC联盟计划在2024年推出首批符合规范的产品,这只是一个开始。从产品上市到被大规模采纳,再到生态成熟,还需要数年时间。UEC能否在这个时间窗口内快速推进,至关重要。

> 个人观点与建议:从我过去跟踪类似技术标准演进的经验来看,UEC的诞生是必然的。当某一领域的技术被单一公司主导并形成事实垄断时,由其他主要玩家联合推动一个开放标准,是打破僵局的经典剧本。对于行业从业者,我的建议是:

  1. 保持关注,积极学习:无论你是网络工程师、系统架构师还是AI开发者,都应该开始了解UEC的核心概念和技术方向。这很可能成为未来几年的热门技能。
  2. 谨慎评估,分步尝试:对于计划新建或扩建大型AI集群的企业,在2024-2025年,可以开始将UEC纳入技术选型的评估范围。但对于生产关键业务,可能仍需以成熟的InfiniBand方案为主,在非核心或研发环境尝试UEC。
  3. 关注软件栈的演进:硬件的进步需要软件的释放。多关注PyTorch等主流框架对新型网络通信后端的支持进展,这比单纯关注硬件规格更有实际意义。

这场由超以太网联盟掀起的风暴,本质上是对未来算力基础设施架构定义权的争夺。它预示着AI算力正在从“专用封闭集成”走向“开放标准解耦”的新阶段。无论最终胜负如何,更激烈的竞争和更开放的选择,对整个行业的健康发展和终端用户而言,都是一件好事。我们正站在一个新时代的门口,而网络,将是开启这扇门的关键钥匙之一。

http://www.jsqmd.com/news/853083/

相关文章:

  • 全域数学公理:基于32维超复数与易经卦爻的宇宙大一统理论(整理版)
  • 深圳爱格板材全屋定制怎么选?2026 权威实测榜单出炉 - 兔兔不是荼荼
  • 2026年大厂Java面试高频场景题 + 八股文(万字干货,纯手工硬核整理)
  • 蓝图玩家的福音:不用写代码,用UE5.2.1把Windows和安卓包都打出来(附完整配置清单)
  • 2026年5月广州纸板/纸箱/PP聚丙烯中空箱/包装袋/缠绕膜/封箱胶厂家哪家好,认准东莞市复星纸品有限公司 - 2026年企业推荐榜
  • Lusca部署指南:生产环境中的最佳安全实践
  • OpenArm开源机械臂终极指南:从零开始构建你的7自由度人形手臂
  • 5维体验:如何用Pixelle-Video让AI帮你完成短视频创作的全流程
  • 2026.5.20总结
  • 如何在Windows11中自定义快捷方式?提升操作效率的技巧
  • BongoCat虚拟猫咪助手终极教程:打造你的跨平台桌面互动伙伴
  • RISC-V中断实战:手把手教你用QEMU模拟器调试四种中断(附代码)
  • 2026 年USB连接器十大品牌排名及解析 - 十大品牌榜
  • 2026成都短期周转黄金变现,快速回收解燃眉之急 - 诚鑫名品
  • 我用 PAI/Codex 理解 Harness Engineering:Agent 工作环境到底怎么搭
  • Camera Shakify:Blender相机动画终极实战指南
  • Flowpilot传感器融合技术:摄像头、GPS、IMU和磁力计的协同工作原理
  • 猫抓插件终极指南:三步搞定网页视频音频下载的完整解决方案
  • 飞书 CLI vs 企业微信 CLI vs 钉钉 CLI:三大办公平台终端工具横评
  • 个人刷卡 pos 刷卡机免费上门办理,官方授权大额刷卡无年费选购指南 - 资讯速览
  • CANN/asc-devkit SIMD-API同步控制
  • 静态库 vs 共享库:从一次课程互测聊聊Linux下C库的实战选择与底层原理(PIC/GOT/PLT)
  • dialoqbase社区贡献指南:如何参与这个开源项目并成为核心贡献者
  • 2026年Q2中国防水工程优质服务商首选推荐:合肥晴空防水装饰工程有限公司 - 安互工业信息
  • 考试宝丨 刷题工具怎么选? 34 项业务精准破局行业痛点 - 讲清楚了
  • BongoCat终极指南:5分钟打造你的跨平台互动桌宠
  • 如何快速掌握FunASR后端解码:从声学特征到文本的完整指南
  • DiffLoss扩散损失函数详解:MAR训练的核心引擎
  • 33-js-concepts高级特性:深入理解闭包、生成器和设计模式
  • 猫抓Cat-Catch终极指南:从资源困境到高效获取的完整解决方案