当前位置: 首页 > news >正文

分布式训练知识

  • 单进程多GPU训练
    • 特点
      • 单进程控制多个GPU:一个Python进程管理所有GPU
      • 主GPU收集梯度:在前向传播时,数据被拆分到不同GPU;反向传播时梯度汇总到主GPU进行参数更新
    • 特征
      • 程序内部使用DataParallel包装模型
      • 用普通的python命令启动程序
    • transformers库相关参数
      • self.args.n_gpu等于GPU数
  • 分布式训练
    • 特点
      • 多进程架构:每个GPU对应一个独立的进程
      • 点对点通信:使用NCCL等通信库,进程间直接通信
      • 内存效率高:每个GPU只存储自己的模型副本和优化器状态
      • 真正的数据并行:每个进程独立处理数据,梯度通过all-reduce操作同步
    • 特征
      • 用DDP包装模型
      • 使用torchrun启动程序
    • transformers库相关参数
      • self.args.n_gpu等于一
      • self.accelerator.num_processes等于进程数(也就是GPU数)
  • 只要使用了deepspeed,那么就会使用分布式训练
http://www.jsqmd.com/news/84387/

相关文章:

  • 第一章——办公自动化之邮件批量发送:高效沟通,一键搞定
  • B站的视频怎么下载到电脑?
  • Part 02|我为什么开始自己做一套商城系统
  • 《AI元人文构想:元协议、行为重塑与文明免疫系统》一篇技术或伦理的论述与一份关于智能时代文明如何存续与发展的奠基性宣言
  • CAIE认证:一次关于AI认知与思维升级的个人记录
  • 21.数据库连接池
  • 常见API(补充)
  • 《Python实战小课:数据分析场景——解锁数据洞察之力》导读
  • 34、Python 数据持久化与序列化:从简单到关系型的全面解析
  • 放过自己,也放过你的领导
  • Part 03|当客户真的要交付时,我最先考虑的不是技术
  • 设计模式复习1
  • 我对防抖(Debounce)的一点理解与实践:从基础到立即执行
  • [网鼎杯 2020 青龙组]AreUSerialz(个人记录写题笔记,含PHP反序列化的原理、漏洞成因以及利用技巧)
  • PINN学习(三)—— 发现方程问题的解决
  • 当AI成为同事:HR的“战斗力”正在被重新定义
  • 【安卓aosp】编译报错 killed 如果处理
  • Comsol Multiphysics数值模拟
  • Windows11中使用VS2022编译运行libevent网络库
  • 不止于智能:GPT-5.1 发布,更温暖、更好聊的 ChatGPT 来啦!
  • 战网注册后显示无法登录
  • Creed —— 血液特效与敌人伤害
  • 生成式搜索优化服务商排行
  • PINBAI平板电脑维修实例
  • 大模型教我成为大模型算法工程师之day9:卷积神经网络 (CNN)
  • 优化巨型物流网络:某中心如何通过算法实现区域化转型
  • 13. django中间件
  • LangChain All In One
  • 论文解读|从“情感陪伴机器人”到“知识中介体”
  • AI大模型之Agent,RAG,LangChain(三)