当前位置: 首页 > news >正文

llamafactory gradient_checkpointing 梯度检查点 通俗完整讲解

llamafactory gradient_checkpointing 梯度检查点 通俗完整讲解

1. 原生不开启时(你现在 false 的状态)

模型走一遍前向传播,会把所有中间激活值全部存在显存里
作用:反向传播算梯度时,直接拿这些中间值计算,不用重新跑前向,速度快。
代价:序列越长、batch越大,中间激活占的显存爆炸,很容易冲到99%。

举个你场景的例子:cutoff_len=1024、bs=32,14B大模型,中间激活张量体积非常大,这就是你显存经常顶满的核心元凶。

2. 开启 gradient_checkpointing: true 做了什么?

核心逻辑:以少量重复计算,换取大幅显存节省

  1. 前向传播时,不保存全部中间激活,只存少量关键节点;
  2. 等到反向传播需要某一段中间数据时,重新再跑一遍对应区间的前向计算,现场算出激活;
  3. 全程不会一次性堆海量中间张量在显存里,显存峰值直接下降 30%~50%。

和你梯度累积完全无关

不管 gradient_accumulation_steps 是2还是4,梯度检查点只管「前向激活要不要存」,不影响梯度累加逻辑。

3. 优缺点

优点

  • 大幅压低显存峰值,解决你 88%~99% 冲高、偶尔OOM崩溃问题;
  • 同样显卡下,可以开更大 batch / 更长序列长度;
  • 搭配 FlashAttention2 双重省显存,MI300 192GB 体验提升明显。

缺点

  • 每一步训练会多跑一小段前向计算,训练速度大概慢 10%~20%;
  • CPU算力、读写开销轻微上涨,preprocessing_num_workers=8完全能扛住。

4. 适配你当前场景怎么选

  1. 现状:显存经常冲到99%,波动极大
    建议开启 true,稳定性优先,轻微降速完全可接受;
  2. 如果你后续调小batch、且全程显存稳定80以内不报警,再切回 false 提速。

5. 补充关键细节(SFT训练专用)

  • use_cache: false必须搭配梯度检查点一起用(你配置里已经开了,正确),训练阶段禁用KV缓存,额外省一大块显存;
  • LoRA微调场景下开启梯度检查点不影响LoRA梯度更新,只冻结基础模型部分重算,LoRA训练效果无损失;
  • 和 bf16 / FlashAttention2 兼容,ROCm MI300无兼容性bug。

极简总结

不开:存所有中间激活 → 显存占用高、跑的快
开启:丢掉大部分中间激活,反向时临时重算 → 显存砍半、速度略慢
专门解决你长文本1024序列导致的显存爆满问题。

http://www.jsqmd.com/news/1078362/

相关文章:

  • STM32WB55入门教程(二)
  • 简道云智能助手实测:工单派发→报工→质检→入库,全自动流转到底靠不靠谱?
  • 状态空间模型安全风险剖析:频谱攻击、后门植入与状态饱和的攻防实践
  • NannyML无标签模型监控:实现端到端MLOps性能闭环
  • Docker网络这5种模式,你真的都搞明白了吗?
  • 从CTF EasySQL题解析SQL注入攻防:核心原理与实战绕过技巧
  • 5分钟打造万能启动盘:Ventoy彻底告别重复格式化时代
  • HDFS javaAPI-windows的IDEA中java文件在linux中的hadoop平台运行
  • P89LPC92x1中断与I/O配置实战:从原理到避坑指南
  • 脉冲神经网络多级脉冲设计与能效优化
  • HTTPS 性能优化完全指南:从原理、硬件到架构的全链路调优实战
  • 手动构造链表和二叉树
  • SaaS和低代码厂商的智能体转型路径:两场范式级转型的路线图
  • 2026命理软件付费前怎么看?八字排盘App要看使用频率和可替代成本
  • oauth2授权码模式完整流转
  • DonkeyCar存储系统深度解析:SD卡选型、ext4优化与路径陷阱
  • JSON Schema验证实际应用场景案例
  • JMeter压力测试实战:AI音效生成服务性能调优全解析
  • OpenCloudOS Server 9 安装 Nginx 完整指南
  • MHmarkets:注重效率的使用者更在意的投教内容,这里做个标准对照
  • 项目上线了
  • 【题解】WebGoC绘图题目精选整合集
  • 【Java踩坑笔记】【基础语法篇】05_重写equals不重写hashCode会怎样?
  • 小白stm32入门教程学习记录:3-2 LED闪烁流水灯
  • 有哪些专业的匹克球拍公司可以推荐?
  • 机房运维台账怎么做才算到位
  • 终极指南:企业级远程控制平台billd-desk私有化部署全流程
  • AI培训行业变化:必火AI与传统机构对比
  • MCP服务器:AI与外部工具安全交互的协议中枢
  • 【每天认识一个国家 | 韩国】