当前位置：首页 > news >正文

大模型分布式训练技术深度解析：从 ZeRO 到 3D 并行的全面指南

news 2026/5/26 23:17:59

大模型分布式训练技术深度解析：从 ZeRO 到 3D 并行的全面指南

摘要

本文深入剖析大模型分布式训练的核心技术体系，涵盖 ZeRO 内存优化三阶段原理、数据并行/张量并行/流水线并行的 3D 组合策略、DeepSpeed 与 FSDP 框架实现细节，以及 CPU/NVMe Offload 扩展技术。通过源码级分析揭示分布式训练的设计思想与通信优化机制，帮助开发者掌握训练百亿参数模型的关键技术。

引言

随着 GPT-4、LLaMA 等大模型的涌现，模型参数规模已突破千亿级别，单 GPU 内存（24-80GB）已无法容纳完整模型。分布式训练成为训练大模型的必备技术。

核心问题：

如何突破单卡内存瓶颈？
ZeRO 三阶段优化分别解决了什么问题？
数据并行、张量并行、流水线并行如何组合使用？
DeepSpeed 与 PyTorch FSDP 有何异同？

文章结构：首先解析内存瓶颈根源，深入 ZeRO 优化原理，然后剖析 3D 并行策略，最后对比主流框架实现。

内存瓶颈分析

大模型内存占用构成

训练一个参数量为P PP的模型，内存占用包括：

内存类型	计算公式	占比
模型参数	P i m e s e x t s i z e o f ( d t y p e ) P imes ext{sizeof(dtype)}Pimesextsizeof(dtype)	基础
梯度	P i m e s e x t s i z e o f ( d t y p e ) P imes ext{sizeof(dtype)}Pimesextsizeof(dtype)	1x 参数
优化器状态	P i m e s K i m e s e x t s i z e o f ( d t y p e ) P imes K imes ext{sizeof(dtype)}PimesKimesextsizeof(dtype)	K KKx 参数

Adam 优化器状态详解：

Momentum（一阶矩）：P PP个参数
Variance（二阶矩）：P PP个参数
主参数副本：P PP个参数
总计K = 12 K=12K=12（FP32 存储，4 i m e s 3 = 12 4 imes 3 = 124imes3=12字节/参数）

实例计算（LLaMA-65B，FP16 训练）：

模型参数: 65B × 2 bytes = 130 GB 梯度: 65B × 2 bytes = 130 GB 优化器状态: 65B × 12 bytes = 780 GB 总计: 1040 GB ≈ 1 TB

单卡 A100 80GB 显存完全无法容纳，必须使用分布式训练技术。

传统数据并行的问题

传统 DDP（Distributed Data Parallel）在每张卡上保存完整模型副本：

N 卡训练所需总内存 = 单卡内存需求 × N

对于 LLaMA-65B，即使使用 128 卡 A100，每卡仍需 130GB+780GB/N ≈ 136GB，超出单卡容量。

核心矛盾：数据并行增加了总计算能力，但每卡内存需求不变，无法突破单卡瓶颈。

ZeRO：零冗余优化器

ZeRO 设计思想

ZeRO（Zero Redundancy Optimizer）的核心思想：消除数据并行中的内存冗余。

传统 DDP 每卡保存完整副本，造成冗余。ZeRO 将优化器状态、梯度、参数分片存储于不同卡，每卡只保存一部分。

ZeRO 三阶段详解

Stage 1：优化器状态分片

将优化器状态（Adam 的 Momentum/Variance）均匀分片到N NN个 GPU：

每卡优化器状态内存 = 原始需求 / N

内存节省：

原始：P + P + 12 P = 14 P P + P + 12P = 14PP+P+12P=14P
ZeRO-1：P + P + 12 P / N = 2 P + 12 P / N P + P + 12P/N = 2P + 12P/NP+P+12P/N=2P+12P/N

通信开销：训练结束时需 All-Gather 同步参数，额外开销约 1.5x。

Stage 2：梯度分片

在 Stage 1 基础上，将梯度也分片存储：

每卡梯度内存 = P / N

内存节省：

ZeRO-2：P + P / N + 12 P / N = P + 13 P / N P + P/N + 12P/N = P + 13P/NP+P/N+12P/N=P+13P/N

通信优化：使用 Reduce-Scatter 替代 All-Reduce，减少通信量。

Stage 3：参数分片

将模型参数也分片存储，实现完全分片：

每卡参数内存 = P / N

内存节省：

ZeRO-3：P / N + P / N + 12 P / N = 14 P / N P/N + P/N + 12P/N = 14P/NP/N+P/N+12P/N=14P/N

通信开销：前向/反向传播时需实时 All-Gather 获取所需参数片段。

ZeRO 内存效率对比

配置	参数	梯度	优化器状态	每卡总内存
DDP	P PP	P PP	12 P 12P12P	14 P 14P14P
ZeRO-1	P PP	P PP	12 P / N 12P/N12P/N	2 P + 12 P / N 2P + 12P/N2P+12P/N
ZeRO-2	P PP	P / N P/NP/N	12 P / N 12P/N12P/N	P + 13 P / N P + 13P/NP+13P/N
ZeRO-3	P / N P/NP/N	P / N P/NP/N	12 P / N 12P/N12P/N	14 P / N 14P/N14P/N

实例（LLaMA-65B，N=128 卡）：

方法	每卡内存需求
DDP	1040 GB（不可行）
ZeRO-1	260 GB（不可行）
ZeRO-2	195 GB（不可行）
ZeRO-3	8.1 GB（可行！）

ZeRO-3 实现机制

ZeRO-3 的参数分片需要特殊处理，因为前向/反向传播需要完整参数：

参数获取流程：

# 前向传播时defforward(layer_input):# 1. All-Gather 获取当前层完整参数full_param=all_gather(my_param_shard)# 2. 执行计算output=layer.forward(layer_input,full_param)# 3. 释放非本卡参数片段（节省内存）release_non_local_shards()returnoutput

DeepSpeed ZeRO-3 配置示例：

zero_stage3_config={"train_batch_size":64,"gradient_accumulation_steps":4,"fp16":{"enabled":True},"zero_optimization":{"stage":3,"contiguous_gradients":True,"stage3_max_live_parameters":1e9,# 最大同时存活参数数"stage3_max_reuse_distance":1e9,# 参数复用距离阈值"stage3_prefetch_bucket_size":1e7,# 预取桶大小"stage3_param_persistence_threshold":1e5,# 持久化阈值"reduce_bucket_size":1e7,"sub_group_size":1e9,"offload_optimizer":{"device":"cpu","pin_memory":True},"offload_param":{"device":"cpu","pin_memory":True}}}# ZeRO-3 模型初始化（必须在 zero.Init 上下文中）importdeepspeedwithdeepspeed.zero.Init(config_dict_or_path=zero_stage3_config):model=MyLargeModel(hidden_size=8192,num_layers=96)model_engine,optimizer,_,_=deepspeed.initialize(model=model,config=zero_stage3_config)

ZeRO-Infinity：CPU/NVMe Offload

ZeRO-3 结合 CPU/NVMe Offload 可进一步扩展内存容量：

Offload 配置：

{"offload_optimizer":{"device":"nvme","nvme_path":"/local_nvme","pin_memory":true,"buffer_count":8,"fast_init":true},"offload_param":{"device":"nvme","nvme_path":"/local_nvme","pin_memory":true,"buffer_count":5,"buffer_size":1e8,"max_in_cpu":1e9}}

内存层级：

GPU 显存 (快速) → CPU 内存 (中等) → NVMe SSD (大量)

通过分层存储，可将数百 GB 模型训练于有限 GPU 资源。

关键要点

ZeRO 通过分片消除 DDP 内存冗余
Stage 1/2/3 逐步分片优化器状态/梯度/参数
ZeRO-3 实现每卡内存14 P / N 14P/N14P/N，突破单卡瓶颈
CPU/NVMe Offload 进一步扩展容量

3D 并行策略

三种并行方式对比

并行类型	切分对象	通信特点	适用场景
数据并行（DP）	训练数据	All-Reduce 梯度	数据量大、模型小
张量并行（TP）	模型层内参数	All-Reduce/All-Gather	层内计算密集
流水线并行（PP）	模型层间	Point-to-Point	层数多、层间独立

张量并行（Tensor Parallelism）

原理：将单层计算拆分到多个 GPU，每卡执行部分计算。

MLP 层 TP 示例：

# MLP: Y = GeLU(X @ W1) @ W2# W1: [hidden, hidden*4], W2: [hidden*4, hidden]# TP=2 时，每卡保存一半权重# GPU0: W1[:, :hidden*2], W2[:hidden*2, :]# GPU1: W1[:, hidden*2:], W2[hidden*2:, :]# 前向传播流程# 1. All-Gather 输入 X（或广播）# 2. 各卡计算部分结果X_local=X# 广播到所有卡Y1_partial=GeLU(X_local @ W1_shard)# 各卡独立计算# 3. All-Reduce 合并结果Y1=all_reduce(Y1_partial)# 合并两部分# 4. 第二层类似Y2_partial=Y1 @ W2_shard Y2=all_reduce(Y2_partial)

DeepSpeed AutoTP 配置：

{"tensor_parallel":{"autotp_size":4,"preset_model":"llama","tp_overlap_comm":true,"partition_config":{"layer_specs":[{"patterns":[".*\.q_proj\.weight$",".*\.k_proj\.weight$"],"partition_type":"column"},{"patterns":[".*\.o_proj\.weight$",".*\.down_proj\.weight$"],"partition_type":"row"}]}}}

TP 通信开销：每层需 2 次 All-Reduce，通信频繁，要求 GPU 间高速互联（NVLink）。

流水线并行（Pipeline Parallelism）

原理：将模型层切分到不同 GPU，形成计算流水线。

PP 示例（4 卡，24 层）：

GPU0: Layer 0-5 → GPU1: Layer 6-11 → GPU2: Layer 12-17 → GPU3: Layer 18-23

DeepSpeed PipelineModule 实现：

fromdeepspeed.pipeimportPipelineModule,LayerSpecclassTransformerLayer(torch.nn.Module):def__init__(self,hidden_size):super().__init__()self.attention=torch.nn.MultiheadAttention(hidden_size,8)self.ffn=torch.nn.Sequential(torch.nn.Linear(hidden_size,hidden_size*4),torch.nn.GELU(),torch.nn.Linear(hidden_size*4,hidden_size))defforward(self,x):attn_out,_=self.attention(x,x,x)x=x+attn_outreturnx+self.ffn(x)# 构建流水线模型layers=[LayerSpec(TransformerLayer,hidden_size=1024)for_inrange(24)]model=PipelineModule(layers=layers,num_stages=4,loss_fn=torch.nn.CrossEntropyLoss(),partition_method='parameters')

PP 流水气泡问题：

传统 PP 存在"气泡"（Pipeline Bubble）——部分 GPU 空闲等待：

时间步: 1 2 3 4 5 6 7 8 GPU0: F0 F1 F2 F3 -- -- -- -- (F=前向) GPU1: -- F0 F1 F2 F3 -- -- -- GPU2: -- -- F0 F1 F2 F3 -- -- GPU3: -- -- -- F0 F1 F2 B0 B1 (B=反向)

GPipe 与 1F1B 调度优化：

GPipe：将 batch 分成多个 micro-batch，减少气泡
1F1B：交替执行前向/反向，最大化流水线效率

3D 并行组合

组合公式：

总 GPU 数 = DP × TP × PP

示例（128 GPU 训练 100B 模型）：

DP=4, TP=8, PP=4 总 GPU = 4 × 8 × 4 = 128

组合策略选择：

模型规模	推荐配置	理由
<10B	DP=8, TP=2	数据并行为主
10-50B	DP=4, TP=4, PP=2	平衡配置
50-100B	DP=2, TP=8, PP=4	TP/PP 为主
>100B	DP=1, TP=8, PP=8	全模型并行

Megatron-LM 3D 并行实现：

Megatron-LM 是 NVIDIA 开源的大模型训练框架，原生支持 3D 并行：

# Megatron-LM 初始化frommegatron.initializeimportinitialize_megatron initialize_megatron(tensor_model_parallel_size=8,# TPpipeline_model_parallel_size=4,# PPdata_parallel_size=2# DP)

关键要点

TP 切分层内参数，适合 NVLink 互联场景
PP 切分层间，减少通信但存在流水气泡
3D 并行组合实现超大模型训练
DP/TP/PP 比例需根据模型规模调整

DeepSpeed vs FSDP 对比

架构对比

特性	DeepSpeed ZeRO	PyTorch FSDP
开发者	Microsoft	PyTorch 团队
ZeRO 支持	Stage 1/2/3	对应 FULL_SHARD
Offload	CPU + NVMe	仅 CPU
TP/PP 支持	原生支持	需结合其他库
配置方式	JSON 配置文件	Python API

FSDP Sharding Strategy 映射

FSDP 策略	DeepSpeed 对应	分片内容
NO_SHARD	ZeRO Stage 0	无分片
SHARD_GRAD_OP	ZeRO Stage 2	梯度 + 优化器状态
FULL_SHARD	ZeRO Stage 3	参数 + 梯度 + 优化器状态

FSDP 配置示例

# Accelerate 配置文件compute_environment:LOCAL_MACHINEdistributed_type:FSDPfsdp_config:fsdp_sharding_strategy:FULL_SHARDfsdp_auto_wrap_policy:TRANSFORMER_BASED_WRAPfsdp_backward_prefetch_policy:BACKWARD_PREfsdp_forward_prefetch:falsefsdp_cpu_ram_efficient_loading:truefsdp_offload_params:falsefsdp_state_dict_type:SHARDED_STATE_DICTfsdp_sync_module_states:truefsdp_transformer_layer_cls_to_wrap:BertLayerfsdp_use_orig_params:truemixed_precision:bf16num_processes:8

FSDP Python API：

fromaccelerateimportFullyShardedDataParallelPlugin,Acceleratorfromtorch.distributed.fsdpimportFullStateDictConfig,FullOptimStateDictConfig fsdp_plugin=FullyShardedDataParallelPlugin(state_dict_config=FullStateDictConfig(offload_to_cpu=False,rank0_only=False),optim_state_dict_config=FullOptimStateDictConfig(offload_to_cpu=False,rank0_only=False),)accelerator=Accelerator(fsdp_plugin=fsdp_plugin)model,optimizer=accelerator.prepare(model,optimizer)

选择建议

场景	推荐框架
纯 ZeRO 分片，快速上手	FSDP（PyTorch 原生）
需要 NVMe Offload	DeepSpeed ZeRO-Infinity
需要 3D 并行（TP+PP）	DeepSpeed + Megatron-LM
生产级百亿模型训练	DeepSpeed（功能更全）

关键要点

FSDP 是 PyTorch 原生实现，更轻量
DeepSpeed 功能更全，支持 NVMe Offload 和 3D 并行
FSDP FULL_SHARD ≈ DeepSpeed ZeRO-3

实战案例：训练 70B 模型

场景描述

使用 8×A100 80GB 训练 LLaMA-70B 模型。

解决方案

方案设计：

模型参数: 70B × 2 bytes = 140 GB 单卡显存: 80 GB 策略: ZeRO-3 + CPU Offload + TP=2

DeepSpeed 配置：

ds_config={"train_batch_size":256,"train_micro_batch_size_per_gpu":1,"gradient_accumulation_steps":32,"fp16":{"enabled":True},"zero_optimization":{"stage":3,"contiguous_gradients":True,"overlap_comm":True,"reduce_scatter":True,"stage3_max_live_parameters":5e8,"stage3_prefetch_bucket_size":5e7,"offload_optimizer":{"device":"cpu","pin_memory":True},"offload_param":{"device":"cpu","pin_memory":True}},"tensor_parallel":{"autotp_size":2,"preset_model":"llama"},"optimizer":{"type":"AdamW","params":{"lr":1e-5}}}

训练脚本：

deepspeed--num_gpus=8train_llama.py\n--model_namellama-70b\n--deepspeed_configds_config.json\n--output_dir./output

内存预估

组件	单卡内存（ZeRO-3 + TP=2）
参数分片	70B × 2 / 8 / 2 = 8.75 GB
梯度分片	8.75 GB
优化器状态分片	70B × 12 / 8 / 2 = 52.5 GB（Offload 到 CPU）
激活值	~15 GB
GPU 显存总计	~35 GB（可行！）