当前位置: 首页 > news >正文

Infra十年演进

AI 基础设施(Infrastructure)的十年(2015–2025),是从“通用云计算”向“AI 原生智算”的范式转移史。这十年间,基础设施从仅仅提供“算力池”,演变为一个感知模型需求、自动编排网络、并具备内核级安全审计的智能生命体。


一、 核心演进的三大技术纪元

1. 虚拟化与云原生期 (2015–2018) —— “计算的标准化”
  • 核心特征:重点在于Kubernetes (K8s)的统治和容器化。
  • 技术状态:算力以 CPU 为主,GPU 只是挂载在虚拟机上的“二等公民”。主要解决的是如何快速部署 Web 应用和微服务。
  • 痛点:存储瓶颈。传统的分布式存储无法支撑 AI 训练时海量小文件的吞吐需求。
2. 算力中心与异构计算期 (2019–2022) —— “GPU 成为主角”
  • 核心特征:随着大模型崛起,基础设施转向以NVIDIA GPU为中心的异构算力集群。
  • 技术跨越:
  • 高性能互联:InfiniBandRoCE成为标配,因为万卡协同需要极低的网络延迟。
  • 显存池化:开始出现 GPUDirect RDMA 技术,允许 GPU 直接绕过 CPU 访问远端内存。
  • 存算分离:AI 原生存储(如 Lustre, WekaIO)通过多级缓存机制解决了模型训练的 I/O 墙。
3. 2025 智算原生、eBPF 内核调度与 CXL 3.0 时代 —— “算力织网”
  • 2025 现状:
  • 万卡集群自动化:2025 年的基础设施具备了“故障自愈”能力。系统能预测 GPU 的老化,并在故障发生前毫秒级迁移训练状态。
  • eBPF 驱动的“算力安全与能效哨兵”:在 2025 年的算力中心。OS 利用eBPF在 Linux 内核层实时审计每一份通过网卡流向 GPU 的数据。eBPF 钩子能够监控模型算子的执行效率。如果检测到某个任务正在浪费昂贵的 HBM3e 显存,或者存在非法的模型参数外泄,eBPF 会在内核态直接触发熔断。这实现了物理级的算力成本控制与数据隔离
  • CXL 3.0 与统一内存:彻底打破了显存与系统内存的界限。

二、 AI Infra 核心维度十年对比表

维度2015 (通用云时代)2025 (智算原生时代)核心跨越点
计算核心CPU 为主,单机调度万卡级 GPU/NPU 互联集群算力从“单点”转向“集群级协作”
网络带宽10GbE / 25GbE800GbE / 1.6TbE (RoCE v3)网络成为 AI 训练的第一生产力
显存容量12GB (K80)141GB+ (H200) / CXL 内存池解决了万亿参数模型的驻留问题
安全管控VPC 逻辑隔离eBPF 内核级硬件行为审计实现了 AI 租户间物理级的安全隔离
调度单位Pod (容器)算子级分布式切片 (DTensor)调度粒度从“进程”进化到“数学算子”

三、 2025 年的技术巅峰:当“架构”融入系统脉络

在 2025 年,AI Infra 的先进性体现在其对硬件性能的极致透明化管控

  1. eBPF 驱动的“网络流自动整形”:
    在 2025 年的万卡集体通信(All-Reduce)中。
  • 内核态动态寻址:工程师利用eBPF钩子在内核网络栈实时感知链路拥塞。如果某台交换机出现 10ms 的延迟抖动,eBPF 直接在内核态重写数据包路由,绕过拥塞节点。这种“内核自愈”比传统软件定义网络(SDN)快了100 倍,确保了大模型训练的 MFU(模型算力利用率)保持在70% 以上
  1. 液冷与动态功耗编排:
    2025 年的基础设施能感知每一个算子的热功耗。当运行 MoE 模型时,系统根据 eBPF 反馈的活跃专家分布,动态调整冷头的流速,实现了算力与能源的闭环匹配
  2. HBM3e 与 CXL 内存池化:
    利用 CXL 3.0 协议,多个节点可以共享同一组海量内存池。通过内核级优化,模型不再需要频繁做 Checkpoint,极大地提升了训练效率。

四、 总结:从“服务器租赁”到“智算中枢”

过去十年的演进,是将 Infra 从一个**“冰冷的硬件堆叠”重塑为“赋能全球智能进化、具备内核级网络感知与实时行为安全审计能力的智算操作系统”**。

  • 2015 年:你在纠结如何通过 K8s 扩容 10 个 Web 节点。
  • 2025 年:你在利用 eBPF 审计下的万卡智算网,看着万亿参数模型在内核级的自动调优下,以几近完美的效率安全运行。
http://www.jsqmd.com/news/373446/

相关文章:

  • 同程与飞猪出票失败频率及反复确认现象对比分析:2026年主流旅行平台消费体验测评报告 - 资讯焦点
  • OTA平台价格波动场景测评:同程、去哪儿、携程、飞猪的消费体验对比 - 资讯焦点
  • ESA Pages让AI生成网站
  • ABB PFTL 201D-50.0-3BSE008922R50
  • 四大旅行平台国际机票退改签规则处理体验横向测评报告 - 资讯焦点
  • 港华商会与碳启元合作,引领绿色商业碳中和新风向
  • 2026别错过!AI论文平台,千笔 VS Checkjie,专为本科生量身打造!
  • 2026上半年软考程序员备考:案例模拟题练习(2)
  • 2026南昌精品粤菜主题宴会餐厅推荐榜 - 资讯焦点
  • 2026更新版!AI论文平台 千笔写作工具 VS 文途AI,专为本科生打造!
  • 能用很多文献写文章的AI有哪些?2026年6款AI论文工具,帮你搞定各类学术论文! - 掌桥科研-AI论文写作
  • 冬虫夏草那家店最好?2026十强权威榜单揭秘,产地、成分、工艺全链路实测对比 - 资讯焦点
  • 高通平台 Android T 蓝牙技术全解析:A2DP 与 AVRCP 核心代码路径与交互流程
  • 能用很多文献写文章的AI有哪些?2026年6款写论文的AI软件排行榜,支持一键生成功能! - 掌桥科研-AI论文写作
  • 教室照明改造标准升级,近视防控从一盏灯开始
  • Wi-Fi 技术学习:无线DFS测试的环境搭建、参数配置与日志记录详解
  • 定稿前必看!一键生成论文工具 千笔写作工具 VS 灵感ai
  • 2026年诚信的检针机,检针器厂家选型推荐名录 - 品牌鉴赏师
  • 2026年2月重量选别机厂家权威推荐,食品医药行业专用检测设备 - 品牌鉴赏师
  • C#每日面试题-var和dynamic区别
  • 2026服务全面的私人医生机构:在专业与效率中如何选择健康管理伙伴? - 资讯焦点
  • 2026高端居家养老企业推荐与排名:医养结合服务专业度深度评测 - 资讯焦点
  • 2026看这里!苏州口碑好的八段锦线下教学推荐,擒拿/太极刀/站桩/春秋大刀/八段锦/太极推手,八段锦线下教学推荐 - 品牌推荐师
  • 2026年拉伸膜源头厂家年度排名,这些品牌价格与质量对比解析 - 工业品网
  • 超越均值与方差:批归一化(Batch Normalization)的深度解析、高效实现与演进思考
  • 【并发编程实战】10、Java线程数设置实战:CPU/I/O密集型场景最优配置 - 实践
  • 2026年好评如潮!精选扩香器厂家,打造居家香气新体验,香薰机/香氛扩香机/减压香氛,扩香器ODM源头厂家找哪家 - 品牌推荐师
  • 智慧校园采购合同履行跟踪:让每一分钱都花得明白
  • 2026年有实力的展台设计搭建公司推荐,哪家更值得合作 - mypinpai
  • 2026年发电机租赁十大厂家测评报告!综合实力十大品牌推荐! - 深度智识库