当前位置: 首页 > news >正文

模型训练分析-1:Loss以及Grad Norm分析 - Big-Yellow

模型训练分析-1:Loss以及Grad Norm分析

作者:HuangJie
原文链接:https://www.big-yellow-j.top/posts/2026/02/20/ModelTraining.html
发布日期:2026-02-20

转载请注明出处,感谢!

在训练模型(Qwen2.5VL-3B)过程中出现奇怪现象:Loss下降但是Grad Norm先下降后上升的情况争对这种情况简单调研分析,首先选择模型以及训练过程中参数如下:Qwen2.5VL-3B、AdamW、cosine(学习率warm up策略)、交叉熵损失函数。而后通过tensorboard记录优化过程loss以及grad_norm,其中记录方式如下:

PYTHON

Copy

outputs = model(**batch_data)
loss = outputs.loss
accelerator.backward(loss)
if accelerator.sync_gradients:grad_norm = torch.norm(torch.stack([torch.norm(p.grad.detach(), p=2.0) for p in model.parameters() if p.grad is not None])).item()accelerator.clip_grad_norm_(model.parameters(), config.max_grad_norm)
...
if accelerator.sync_gradients:progress_bar.update(1)global_step += 1if accelerator.is_main_process:accelerator.log({'Train/Loss': loss.detach().item(), 'Train/lr': lr_scheduler.get_last_lr()[0],'Train/graid_norm': grad_norm}, step=global_step)

通过上面方式去记录loss等变化情况得到最终图像如下:
Image

loss以及Grad Norm理论简单分析

首先loss往往直接用来表示模型的拟合效果(loss下降代表拟合效果较好,部分震荡代表数据中部分样本很难较好的进行“拟合”)。Gradient(梯度)一般而言就是对于需要优化函数的导数,而Grad Norm一般就是表示所有参数梯度向量拼接(展平)后形成的超长向量的 L2 范数。在模型训练过程总一般而言主要关注两个指标比较多:1、loss;2、评估指标(ACC等),但是对于Grad Norm这个值相对讨论较少,简单对于Grad Norm过程指标(optimization dynamic 的诊断信号),区别loss它不直接衡量模型好坏,而是反映优化器当前“还能走多远、多快”、训练是否稳定、是否接近某种奇异点等中间状态。
那么理论上而言模型优化过程中应该是loss以及Grad Norm(越往后期模型理论上越接近“最优值”那么梯度理论越小)两个指标都一起下降,但是实际情况可能相反,下面就这种情况简单分析如下:

Grad Norm上升原因分析

在Github-issue1中给出结论是:梯度范数大致与参数范数成正比(或者至少取决于参数范数)。作者直接给出了梯度与模型参数的变化情况分析:‖∇f(θ)‖≈‖θ‖⋅‖∇f(θ/‖θ‖)‖,那么也就意味了如果模型 θ/‖θ‖ 大致逐渐收敛但是参数 ‖θ‖在增加就会导致最终的Grad Norm逐渐上升。
在论文中2作者给出解释是:权重衰减与学习率安排相互作用的结果,具体理论分析如下:
Image
这样一来梯度g 与权重 xt 之间关系就只与学习率 γ 和参数 λ 之间有关系。因此就可以得到:‖gt‖‖xt‖=2λγt 当使用学习率warm up策略时候就会发生下降上升的情况。

参考

  1. why is the total_grad_norm increasing across training?  ↩

  2. Why Gradients Rapidly Increase Near the End of Training ↩

http://www.jsqmd.com/news/525077/

相关文章:

  • FastSpeech 2 vs Tacotron 2:新一代语音合成技术对比评测(含音频样本)
  • 微信聊天太干巴?教你几招花式发送GIF动图,斗图从未输过!
  • 2026年热门耐磨钢板12厂家评测报告:NM450耐磨钢板/NM500耐磨钢板/NM550耐磨钢板/NM600耐磨钢板/选择指南 - 优质品牌商家
  • 棉悦会客服咨询AI流量赋能,重塑智能体验新标杆 - 王老吉弄
  • 海安装修设计热门全屋定制品牌推荐榜:东台全屋定制、东台橱柜定制、东台装修设计、南通全屋定制、南通装修设计、如东全屋定制选择指南 - 优质品牌商家
  • 万象熔炉 | Anything XL基础教程:模型加载日志解读与常见报错排查
  • python_07
  • 优选算法_分治_快速排序_归并排序_C++
  • AI正在消灭芯片设计的学习曲线
  • 养虾之腾讯QClaw安装和使用_不支持离线模型_但是可以一键接入微信---AI大模型应用探索0014
  • 2026年美妆护肤GEO优化服务商观察:从技术适配到效果落地的三维分析 - 小白条111
  • PMSx003传感器嵌入式驱动库深度解析与工程实践
  • BEYOND REALITY Z-Image惊艳效果:眼镜反光+皮肤油脂感+布料褶皱同步建模
  • Vite项目实战:利用Autoprefixer优化跨浏览器CSS兼容性
  • Hyper-V Ubuntu静态IP配置与多虚拟机同网段部署指南
  • DeepSeek-OCR从图像到经纬:多模态文档解析终端完整工作流详解
  • How to fix use the FileZilla FTP upload file error All In One
  • GigaWorld-Policy——以动作为中心的世界–动作模型
  • 残差连接————Kimi注意力残差/字节混合注意力 - Big-Yellow
  • 海南乐卡科技客服咨询AI流量赋能,重塑智能体验新标杆 - 王老吉弄
  • Qwen3-ASR-1.7B入门必看:Streamlit界面源码结构解析与自定义UI修改指南
  • AI写教材必备指南:专业工具助力,快速打造低查重教材!
  • 实战解密il2cpp的global-metadata.dat文件:用IDA和VS Code逆向分析技巧
  • Vue3 + Element Plus 日期选择器:开始 / 结束时间,结束时间不超过今天
  • MacBook用户必看:Cursor免费版无限续杯的3种技术方案
  • 亲测有效!论文AI率直降40%的秘密:4个指令+3个技巧+1个神器
  • 知网/维普/万方三大平台AI检测全攻略:一文搞懂怎么通过 - 我要发一区
  • MiniCPM-V-2_6科研协作:会议白板照片识别+行动项自动提取
  • 高效获取网络小说与个性化阅读的全流程指南
  • 达摩院PALM春联模型应用场景:文旅景区AI楹联互动体验设计