当前位置：首页 > news >正文

大模型狂飙背后：撑起 AI 时代的算力底座到底是什么？

news 2026/7/17 14:11:02

从 ChatGPT 掀起的生成式 AI 浪潮，到国产 DeepSeek 模型让开源 AI 走进千家万户，如今我们早已习惯了用大模型写文案、解问题、做创作。但很多人不知道，这些能流畅对话、逻辑缜密的 AI 背后，真正的核心引擎从来不止算法本身，而是一套精密、庞大的大模型算力体系。

就像再聪明的大脑，也需要充足的血液、氧气和能量供给才能运转，大模型的每一次参数迭代、每一次文本生成，都离不开算力、存力、运力的协同支撑。今天我们就用通俗的语言，拆解中国信息通信研究院专家团队的核心研究，看懂 AI 狂飙背后的算力密码。

一、先搞懂：大模型到底是怎么 “学习” 的？

要聊算力，首先得明白大模型的工作逻辑。如今主流的大语言模型，核心都基于 2017 年谷歌提出的 Transformer 架构，这个架构就像 AI 的 “大脑神经框架”，凭借自注意力机制，让 AI 能读懂长文本的上下文逻辑，彻底突破了传统 AI 的处理瓶颈。

而当前主流的大模型训练，主要分为两大经典范式，我们可以用读书学习来类比，一眼就能看懂：

GPT 系列的 “三段式成长”
这是当前行业最主流的训练模式，分为三个阶段：
预训练阶段：相当于 AI 的 “寒窗苦读”，用互联网上海量的文本数据喂给模型，让它通过 “预测下一个词” 的方式，学习人类语言的规律和逻辑，打下通用的语言基础；
监督微调阶段：相当于 “专业特训”，用特定任务的标注数据，教模型理解人类的指令，知道面对不同问题该怎么回答；
强化学习阶段：相当于 “老师手把手纠偏”，通过人类对 AI 的回答打分排序，让模型学会生成更符合人类偏好、更通顺合理的内容。
DeepSeek 的 “轻量化学习” 范式
2025 年初爆火的国产 DeepSeek 模型，走出了一条不一样的路，核心是加入了知识蒸馏环节。简单来说，就是先训练一个能力极强的 “教师大模型”，再让它生成高质量的推理数据，教给一个轻量化的 “学生小模型”。
这种方式的核心优势，就是在大幅降低算力需求的同时，让小模型也能逼近大模型的性能，也正是因为开源的特性，大幅降低了 AI 技术的使用门槛。

二、大模型发展的 “三座大山”：算力面临的核心挑战

很多人以为，AI 不够聪明，只要堆更多 GPU、加更多参数就行。但现实是，哪怕用上了最顶级的 H100/H800 GPU，在大模型实际训练中，硬件的算力利用率往往不超过 50%。模型越做越大，算力却跑不起来，核心卡在了三大挑战上。

1. 计算效率：顶级 GPU，为何 “跑不满”？

大模型的训练，从来不是单张 GPU 能完成的，而是成千上万张 GPU 组成集群，分布式并行计算。这就像一场万人接力赛，只要有一个人掉棒、一个环节卡顿，整个队伍的速度都会被拖慢。

一方面，每次迭代计算后，所有 GPU 都要同步梯度数据，节点间的数据同步带来了巨大的网络通信开销，就像接力赛里的交接棒耗时太长，直接拉低了整体效率；另一方面，大模型训练往往要持续数周甚至数月，数万个 GPU 组成的集群里，任何一个设备故障，都可能拖慢整个集群的训练进度，稳定性也成了影响效率的关键。

2. 存储读写：AI 的 “书架”，装不下、翻得慢

大模型的训练过程，会产生海量数据：除了庞大的训练数据集，还有模型参数、激活函数、优化器状态，以及用来应对故障的训练中间状态（行业叫 Checkpoint，简称 CKPT）。

这就带来了三重难题：

容量不够：千亿级参数的模型，对存储容量的需求呈指数级增长；
速度跟不上：比如 Meta 的 Llama 3.1 405B 模型训练，存储系统需要支持 2TB/s 的持续读写带宽，峰值甚至要到 7TB/s，普通存储系统根本达不到；
碎片化数据难处理：用来断点续训的 CKPT 数据，就像零散的书页，稀疏又碎片化，不仅降低了存储利用率，还要求系统能实现 “秒级读写”，否则就会中断训练进程。

3. 网络传输：一句话传丢，算力直接折半

大模型训练中，最致命的问题之一，就是网络丢包。根据行业权威数据，仅仅 0.1% 的网络丢包率，就会导致算力损失高达 50%；网络时延每增加 1 毫秒，计算效率就会显著下降。

为什么影响这么大？因为分布式训练中，所有 GPU 的数据同步、参数聚合，都依赖网络传输。就像一场万人大会，主持人的指令传丢了一个字，全场的动作都会出错，只能重传、重来，大量的算力都浪费在了等待和重传上。

更麻烦的是，大模型训练的流量是突发性、周期性的峰值流量，很容易超过网络链路容量，引发网络拥塞，再加上传统网络架构的负载不均衡问题，最终形成 “流量极化”，越堵越慢，越慢越堵。

三、破解困局：撑起大模型的四大核心技术

面对这些挑战，行业也在不断技术突破，从存储、通信、网络到基础设施，四大核心技术共同筑牢了大模型的算力底座。

1. 存储技术：给 AI 建一座 “智能高速图书馆”

针对存储瓶颈，核心解决方案就是让 “存力” 匹配算力，既要装得下，更要读得快、找得到。

高性能存储系统：核心解决 CKPT 快速读写的问题，通过多级存储架构，把训练中需要频繁读写的断点数据，放在高 IOPS 的内存介质里，就像把常用的书放在书桌手边，而不是锁在地下室仓库，实现故障后的秒级断点续训；
并行文件系统：采用全 SSD 固态硬盘和分布式架构，就像把一座图书馆的书，分散放在多个借阅窗口，同时支持上万人借阅，还能根据书籍的借阅热度，提前把热门书放到前台缓存，大幅提升访问效率；
DPC 加速技术：让一个计算节点能同时连接多个存储节点，就像一个读者能同时打开多个借阅窗口，大幅提升并发访问能力，减少 GPU 因为等数据而 “闲置发呆” 的时间。

2. 集合通信技术：让万卡集群 “步调一致”

集合通信技术，核心就是解决多 GPU 之间的数据同步效率问题，让成千上万张卡的通信、计算无缝衔接。

简单来说，在单台服务器内部的多卡通信，用网状拓扑和 Mesh 算法，实现卡与卡之间的高效点对点传话；在多台服务器之间的通信，用 HD、Ring 等算法，让 AI 芯片能同时用满多条链路的带宽，实现服务器之间的高效数据同步。

更核心的是计算与通信的统一硬化调度，通过专用硬件引擎，让 GPU 的反向计算和梯度聚合通信同时进行，就像一边跑步一边交接接力棒，不用停下来等，大幅降低调度开销，把硬件性能彻底释放出来。

3. 网络技术：给 AI 修一条 “无损信息高速公路”

大模型训练里，芯片的计算速度很快，但卡与卡、机与机之间的网络传输速度跟不上，就成了最大的瓶颈。

当前行业的主流方案，是基于 RDMA 技术的 RoCE 方案，这是一种基于以太网的高速数据传输技术，能绕过操作系统内核，直接让两台设备的内存之间传输数据，就像修了一条没有红绿灯、没有收费站的直达高速公路，大幅降低传输时延。同时通过构建无损网络，从根源上减少丢包问题，避免算力的无谓损耗。

而卡间互联，目前以 NVLink、HCCL 技术为主，国内也在推进相关技术的标准制定，目标就是让卡与卡之间的数据传输，能匹配上芯片本身的计算速度，不让高速引擎被低速传动系统拖后腿。

4. 基础设施：给 AI 建一座 “超级能源厂房”

支撑大模型算力的，不止是芯片和网络，还有底层的智算中心（AIDC）。和传统的数据中心相比，智算中心的功率密度有了质的飞跃：如今普通数据中心的机柜功率约 36kW / 机架，而 AI 集群的机柜功率需求，已经达到了 80~100kW / 机架，相当于一个机柜的功率，就能满足几十户普通家庭的用电需求。

这也对智算中心的供配电、制冷系统提出了极高的要求，同时在双碳目标下，绿色低碳也成了核心发展方向，如何在保障算力稳定供给的同时，降低能耗、减少碳排放，成了智算中心建设的核心课题。

四、大模型算力的核心体系：三要素，两协同

基于对算力挑战和技术的研究，中国信通院的专家团队提出了完整的大模型算力体系，核心就是 **“三要素两协同”**，这也是未来 AI 算力建设的核心方向。

三大核心要素，缺一不可

我们可以把大模型算力体系，比作一辆顶级超跑，三大要素就是超跑的核心部件：

算力：是超跑的发动机，是整个体系的动力核心，为模型训练和推理提供最基础的计算能力，高性能计算架构和分布式计算技术，就是发动机的核心技术；
存力：是超跑的油箱和供油系统，负责存储和管理海量数据，从训练数据到中间结果，再到最终的模型参数，都依赖存力支撑，供油跟不上，发动机再强也跑不起来；
运力：是超跑的传动系统，负责数据在各个节点之间的高效传输，入算网络、算内网络、算间网络的通信效率，直接决定了算力能不能完整释放，传动系统拉胯，发动机和油箱再好也没用。

两大协同，决定最终性能

一辆超跑能不能跑出极限速度，不止看单个部件强不强，更看部件之间的协同配合，大模型算力体系也是如此：

算存运协同建设：算力、存力、运力不再是单独建设，而是以网强算、以存强算，一体化设计。未来大模型从千亿稠密模型走向万亿稀疏模型，集群规模会越来越大，只有三者深度协同，才能解决带宽、时延、拥塞控制的核心难题，避免出现 “算力过剩、运力不足、存力脱节” 的短板效应。
软硬件协同优化：大模型训练集群，是复杂硬件和复杂软件融合的系统，算力利用率的提升，从来不是只靠堆硬件。需要通过软硬件全栈整合优化，从硬件选型、芯片适配，到软件调度、并行策略优化，实现从数据预处理到模型推理的全流程优化，让硬件的每一分性能，都能真正用在模型训练上。

五、未来趋势：AI 算力的发展方向在哪里？

大算力集群仍是刚需
大参数量模型的训练，始终离不开超大规模算力集群的支撑。如今国际头部 AI 实验室，都在竞相建设超 10 万 GPU 的大算力集群；国内也已经建成了多个万卡算力集群，为国产大模型的发展，奠定了坚实的硬件基础和运维经验。
端侧大模型迎来爆发
不是所有 AI 都要跑在云端的超算集群里，如今多家科技企业都推出了 4B 参数以下的端侧小模型，在保持核心性能的前提下，大幅降低了算力需求。未来，你的手机、电脑、智能汽车，都能本地运行 AI 模型，不用连云端，就能享受便捷的 AIGC 功能，真正实现 AI 无处不在。
缩放定律迎来挑战
此前行业一直信奉 “缩放定律”：模型性能和参数量、数据量、计算资源呈幂律关系，想让 AI 更聪明，就要堆更多参数、更多算力。但如今，以 DeepSeek 为代表的模型，通过 FP8 训练、混合专家模型等技术，用更低的算力消耗实现了更优的性能，打破了 “唯参数论”，也让行业看到了 AI 高效发展的新路径。
算网协同的统一调度成核心需求
跨地域、跨数据中心的大模型训练，面临着数据隐私、算力异构、通信效率等诸多挑战。未来，基于算网协同的统一调度系统，会成为核心方向 —— 通过分层分簇架构，结合实时的算力和网络状态，动态分配计算任务和网络路由，让全国乃至全球的算力资源，都能实现高效协同、按需调度，最大化算力资源的利用率。