当前位置: 首页 > news >正文

LoRA微调的指标

目录
  • 1. train/num_tokens
  • 2. train/mean_token_accuracy
  • 3. train/loss
  • 4. train/learning_rate
  • 5. train/grad_norm
  • 6. train/global_step
  • 7. train/epoch
  • 8. train/entropy
  • 什么是梯度爆炸
  • 1. 梯度爆炸的典型表现(与当前图对比)
  • 2. 这张图里的情况
  • 3. 一句话总结

1. train/num_tokens

  • 含义:训练过程中模型处理的总 token 数量。
  • 解读:这个指标随训练步数线性增长,代表模型正在稳定地处理数据。它是训练进度的一个直观体现。

2. train/mean_token_accuracy

  • 含义:模型在训练集上对每个 token 预测的平均准确率。
  • 解读:数值越高表示模型对训练数据的拟合效果越好。你这个曲线整体呈上升趋势,说明模型在持续学习和进步。

3. train/loss

  • 含义:训练集上的损失值(通常是交叉熵损失)。
  • 解读:损失值越低,代表模型的预测结果越接近真实标签。你的曲线在初期快速下降后趋于平稳,是典型的正常训练表现。

4. train/learning_rate

  • 含义:训练时使用的学习率。
  • 解读:你的曲线呈现“先上升后下降”的变化,说明使用了类似余弦退火或线性预热的学习率调度策略。这有助于模型在训练初期稳定收敛,后期精细优化。

5. train/grad_norm

  • 含义:模型参数梯度的 L2 范数(梯度的大小)。
  • 解读:它反映了训练过程的稳定性。初期较高随后下降并趋于平稳,说明梯度没有出现爆炸或消失,训练过程是稳定的。

6. train/global_step

  • 含义:全局训练步数,即模型已经完成的参数更新次数。
  • 解读:这是训练进度的基础时间轴,所有其他指标都基于它来展示变化趋势。

7. train/epoch

  • 含义:当前训练已经完成的轮次(完整遍历训练集的次数)。
  • 解读:曲线呈线性增长,说明训练在按计划推进,且当前已完成约5轮训练。

8. train/entropy

  • 含义:模型预测分布的熵值。
  • 解读:熵值越高,代表模型的预测越不确定。你的曲线整体下降,说明模型对训练数据的预测越来越自信,和损失下降、准确率上升的趋势是一致的。

什么是梯度爆炸

在这张 train/grad_norm(梯度范数)图里,梯度爆炸会有非常典型的视觉特征,我们可以对照来看:


1. 梯度爆炸的典型表现(与当前图对比)

  • 数值飙升至极高水平:梯度范数会突然突破正常区间(比如从0.5直接跳到10、100甚至更大),在图上表现为一条几乎垂直向上的尖刺,远超当前图的0.4–0.9范围。
  • 剧烈震荡且无收敛趋势:梯度范数会在极大值和极小值之间反复跳变,曲线波动幅度极大,完全没有当前图中逐渐趋于稳定的迹象。
  • 出现异常值(NaN/Inf):极端情况下,梯度范数会超出图表的显示范围,甚至直接出现数值溢出(NaN或无穷大),在图上表现为曲线突然中断或消失。

2. 这张图里的情况

这张图中的梯度范数始终在 0.3–1.0 的区间内波动,整体趋势是逐渐收敛并稳定在0.4–0.6之间,没有出现梯度爆炸的特征

  • 初始阶段的最高值仅为0.9左右,属于正常的梯度范围;
  • 后续波动幅度逐渐缩小,说明模型训练过程中的梯度是稳定的。

3. 一句话总结

如果这张图发生梯度爆炸,你会看到梯度范数曲线突然出现远超当前范围的尖刺,并且伴随无规律的剧烈震荡,而不是像现在这样在小范围内波动并趋于平稳。


http://www.jsqmd.com/news/299564/

相关文章:

  • 循环经济在不同行业的应用前景比较
  • 【避坑指南】Listing 莫名被限流?可能是图片里的“中文残留”害了你!揭秘 AI 如何实现 100% 深度清洗
  • 为什么标准化要用均值0和方差1?
  • 状态仅适用于类组件,或者使用 React 的 Hook 时可以在函数组件中使用。
  • 人群仿真软件:Vadere_(5).仿真场景设计
  • 【技术解析】为什么 Google 翻译搞不定电商图?揭秘 AI Inpainting 技术如何实现“无痕”图片翻译
  • 人群仿真软件:Vadere_(6).Vadere中的障碍物设置
  • 【Python自动化】不懂代码怎么批量修图?这款 AI 工具把“脚本思维”封装成了傻瓜式软件!
  • 【SAA】SpringAI Alibaba学习笔记(二):提示词Prompt - 详解
  • Java 核心语法精讲:注释、标识符、关键字与数据类型
  • 2026 追番日记
  • 文明
  • 详细介绍:Linux的目录结构
  • Python核心语法-(一)Python解释器、Python注释 - 努力-
  • STM32 + FreeRTOS 长期可维护架构:写给那些不敢重构的工程师
  • 人群仿真软件:SimWalk_(20).人群仿真在零售业中的应用
  • 人群仿真软件:Vadere_(1).Vadere简介
  • 基于PromptX创建助手角色
  • 初识C语言14.动态内存管理 - 实践
  • 增量微调优化在线更新
  • 【Java 新手必看】比较运算符:从概念到实战,附可运行代码案例
  • 网络考试点下一步出错怎么办?试试这样做
  • 【保姆级教程】移动端部署本地知识库与大模型,小白也能轻松上手(建议收藏)
  • 大模型学习宝典:收藏这份系统性技术框架,从零开始构建LLM
  • STM32F0实战:基于HAL库开发【2.1】
  • 大语言模型训练原理解析:ChatGPT背后的技术原理与应用价值
  • MCP与A2A深度解析:AI系统集成与智能体协作的未来之路
  • 【升级版本】基于多目标粒子群算法的微电网优化调度【风光、储能、柴油、燃气、电网交互】附Matlab代码
  • 【实时无功-有功控制器的动态性能】【带有电流控制的两级电压源变流器(VSC)】采用αβ阿尔法-贝塔转换进行电流反馈的实时无功功率控制器附Simulink仿真
  • 【2026最新】大模型面试全攻略:23家科技公司面试经验+高频考点总结,助你轻松上岸