当前位置: 首页 > news >正文

【分布式训练中 各种并行方案 分别用什么通信 为什么?比如DP会用到 ALL reduce】

并行方式切分对象主要通信为什么需要
DPBatchAllReduce每张卡算出的梯度不同,需要同步梯度
TPWeight(权重)AllReduce / AllGather / ReduceScatter每张卡只有部分权重或部分输出,需要恢复完整计算
PPLayerSend / Recv (P2P)下一层在另一张 GPU,需要传递激活值和梯度
ZeRO-1Optimizer StateAllReduce参数完整,只同步梯度
ZeRO-2Optimizer + GradientReduceScatter + AllGather(或 AllReduce 的等价实现)梯度分片存储,需要分发和聚合
ZeRO-3 / FSDPParameter + Gradient + OptimizerAllGather + ReduceScatter参数也是分片的,每层计算前需要恢复完整参数
Sequence ParallelSequenceAllGather + ReduceScatterAttention 等算子需要完整 Sequence
Context ParallelContextAllGather / AllToAll(实现相关)长上下文 Attention 需要跨 GPU 的 KV
Expert Parallel(MoE)ExpertAllToAllToken 要发送到负责该 Expert 的 GPU
http://www.jsqmd.com/news/1109870/

相关文章:

  • paperxie AI 科研绘图:一站式科研出图工具,告别 Origin 与 Visio 繁琐制图
  • 2024年AI原生应用开发实战指南
  • 2026年横评:16款降AIGC工具横评,这款降AI率效果一骑绝尘!
  • 6DoF运动跟踪技术:IIM-42652与STM32L162ZE实战解析
  • CM/Ethyl/HP-HA,HA-Glycyrrhetinic acid,甘草次酸修饰透明质酸的特点
  • 【BUG已解决】CondaHTTPError: HTTP 000 CONNECTION FAILED for url 解决方案
  • 无监督学习与聚类算法实战解析
  • 大模型开发实战:轻量化技术与推理优化新范式
  • 全日制mba论文选题怎么选
  • 音乐转录神器:一键将钢琴录音转为专业乐谱
  • 2026年选空间设计公司,这3家专业度拉满
  • 5大核心功能解析:BepInEx如何成为Unity游戏模组开发的首选框架
  • IMU传感器与MCU实现6DoF运动追踪技术解析
  • Sqribble深度解析:模板驱动的云原生PDF出版流水线
  • Windows10Debloater实战指南:5步彻底清理Windows 10系统臃肿
  • 性能测试全流程实战:从负载压测到瓶颈定位的完整指南
  • PDF 翻译按页收费还是按字收费,正式文档怎么选
  • PIC18F4685驱动WS2812B LED的嵌入式开发实践
  • CIBDA 2026国际会议投稿与参会全攻略
  • ASM330LHH与PIC18F57K42在运动跟踪中的硬核应用
  • 高效直流电机驱动系统设计与优化实践
  • 八部委算力新政下,大模型微调如何选型?RTX5090八卡服务器参数与落地方案
  • 企业级现代化管理平台实战:基于FastAPI+Vue3的RBAC权限系统开发指南
  • 2026广安黄金回收白银回收铂金回收旧料回收怎么选?五家高实价铂金白银线下门店测评清单 + 联系方式
  • 参赛倒计时|仅剩最后 10 席!第二届 NVIDIA DGX Spark 黑客松 · 线上训练营报名同步开放,名额有限,欲报从速!
  • KMX62与PIC18F4610在工业稳定控制中的创新应用
  • STM32与MEMS传感器实现高精度三维运动追踪
  • CBCX外汇在风险提示上会不会更省事?
  • Sqribble深度解析:模板驱动的云原生文档操作系统
  • 英雄联盟玩家的智能助手:League Akari 完全指南