当前位置：首页 > news >正文

【LLM基础研究】核心六：AIInfra

news 2026/6/17 21:16:48

AI Infra（人工智能基础设施）研究的核心，在于回答一个根本性问题：如何构建一个高效、可靠且可扩展的系统，来支撑AI算法从海量数据中训练，并进行快速、低成本的推理。

1. 计算：如何突破算力与通信的瓶颈？
当单个GPU无法容纳整个模型时，计算问题就变成了如何高效调度成千上万张卡协同工作的问题。

并行策略的融合优化：单一的数据并行已不敷使用。当前研究聚焦于多维混合并行，即综合运用数据并行、张量并行（将单层计算拆分到多卡）、流水线并行（将不同网络层分配到多卡）和专家并行（针对MoE模型）。挑战在于如何设计调度算法，最大限度地减少因同步和通信导致的GPU闲置（即"气泡"）。

通信开销的掩盖优化：在混合专家模型（MoE）等架构中，跨节点通信成为主要瓶颈。一个代表性的优化是DeepSeek提出的DualPipe技术，它是一种双向流水线并行算法，通过在计算中巧妙地穿插通信任务，有效掩盖了通信延迟。

2. 存储与数据：如何喂饱饥饿的GPU？
GPU以惊人的速度处理数据，而数据加载和处理的任何延迟都会导致昂贵的GPU算力闲置，业界称之为"静默的空转"。

存算分离与性能平衡：为了应对EB级的数据洪流，现代架构正从传统的计算与存储紧耦合，转向存算分离。这使得计算和存储资源可以独立扩展。但代价是带来了网络延迟，因此需要在性能与灵活性之间取得平衡。

消除I/O瓶颈：如何构建高性能的数据管道，确保数据能"喂饱"GPU，是核心挑战。这涉及到并行文件系统、智能数据预取算法以及GPU直接访问存储（如GPUDirect Storage）等硬核技术，目的是将数据等待时间降到最低。

3. 网络：如何构建AI的"神经网络"？
在分布式训练中，成千上万个GPU需要像一台巨型计算机一样协同工作，这极大地依赖高速、低延迟的网络。

构建无损、高吞吐的网络：传统TCP/IP网络的开销过大，无法满足需求。因此，远程直接内存访问（RDMA）和InfiniBand等高速网络技术成为AI集群的标配。研究重点在于如何设计网络拓扑和路由策略，以适应AI训练中"全局通信"（All-to-All）等特定流量模式。

4. 推理：如何应对"深度思考"带来的挑战？
新一代的深度思考模型（如OpenAI o1, DeepSeek R1）通过长思维链进行推理，这对推理基础设施提出了全新挑战。

应对长序列的"内存爆炸"：长输入和长输出会导致键值缓存（KV Cache）激增，严重消耗GPU显存。传统的"以计算换存储"的策略不再适用，业界开始探索 "以存储换算力"的新架构。

异构计算与任务调度：一个典型的创新是Mooncake架构，它将推理任务拆分为预填充（PreFill，计算密集型）和解码（Decoding，内存密集型）两个阶段，并分别调度到不同类型的计算资源上处理。同时，针对大模型的"投机式推理"等优化技术也旨在降低生成延迟。

系统工程：如何让AI可靠落地？
将模型部署到生产环境，需要一整套"护航"系统，确保其稳定、安全、可控。这是AI从"玩具"走向"工具"的关键一步。

高可用架构：大模型API并非100%可靠。企业级架构需具备多模型降级与熔断机制。当主模型服务超时或出错时，系统能自动无缝切换到备用模型或更简单的规则引擎，确保业务不中断。

安全合规护城河：在数据输入模型前，系统需自动进行数据脱敏（如抹除身份证号）；在模型输出结果后，要进行内容安全审查，防止敏感信息泄露或违规内容生成。

可观测性：必须建立全链路监控体系，追踪一个请求从入口、模型推理到结果返回的完整路径，将模型的"黑盒"行为量化为TTFT（首字延迟）、QPS、GPU利用率等具体指标，以便进行运维和优化。

AI Infra的研究正从"支撑模型"转向"驾驭模型"。其核心议题是如何在规模、性能、成本和可靠性之间找到最优解。这是一个横跨计算、存储、网络、系统工程等多个领域的综合性挑战。

MRC: OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom，向业界发布了MRC（MultipathReliableConnection）协议——一种通过多路径并发传输、在微秒级绕过链路故障的新型网络传输协议，并已部署在其最大规模的超算集群中。不同的是，MRC在协议层发力，通过多路径并发传输对抗网络拥塞；ZCube则在架构层动刀，从拓扑设计上消除拥塞产生的根源。前者优化“交通规则”，后者重新规划了整张“路网”。
ZCube:智谱联合驭驯网络与清华大学，在GLM-5.1线上生产集群中完成了新一代网络架构ZCube的规模化落地。在线上GLM-5.1coding场景中，在保持GPU算力、软件栈与应用不变的前提下，ZCube节省了33%的交换机与光模块成本，同时将GPU平均推理吞吐量提升了15%，TTFTP99降低了40.6%。这组数字意味着什么？同样的硬件投入，智谱的GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言，这直接对应更高的并发上限、更低的排队延迟，以及在流量峰值下更稳定的用户体验。

查看全文

http://www.jsqmd.com/news/908441/