当前位置：首页 > news >正文

LoRA微调的指标

news 2026/3/26 20:17:05

1. train/num_tokens
2. train/mean_token_accuracy
3. train/loss
4. train/learning_rate
5. train/grad_norm
6. train/global_step
7. train/epoch
8. train/entropy
什么是梯度爆炸
1. 梯度爆炸的典型表现（与当前图对比）
2. 这张图里的情况
3. 一句话总结

1. `train/num_tokens`

含义：训练过程中模型处理的总 token 数量。
解读：这个指标随训练步数线性增长，代表模型正在稳定地处理数据。它是训练进度的一个直观体现。

2. `train/mean_token_accuracy`

含义：模型在训练集上对每个 token 预测的平均准确率。
解读：数值越高表示模型对训练数据的拟合效果越好。你这个曲线整体呈上升趋势，说明模型在持续学习和进步。

3. `train/loss`

含义：训练集上的损失值（通常是交叉熵损失）。
解读：损失值越低，代表模型的预测结果越接近真实标签。你的曲线在初期快速下降后趋于平稳，是典型的正常训练表现。

4. `train/learning_rate`

含义：训练时使用的学习率。
解读：你的曲线呈现“先上升后下降”的变化，说明使用了类似余弦退火或线性预热的学习率调度策略。这有助于模型在训练初期稳定收敛，后期精细优化。

5. `train/grad_norm`

含义：模型参数梯度的 L2 范数（梯度的大小）。
解读：它反映了训练过程的稳定性。初期较高随后下降并趋于平稳，说明梯度没有出现爆炸或消失，训练过程是稳定的。

6. `train/global_step`

含义：全局训练步数，即模型已经完成的参数更新次数。
解读：这是训练进度的基础时间轴，所有其他指标都基于它来展示变化趋势。

7. `train/epoch`

含义：当前训练已经完成的轮次（完整遍历训练集的次数）。
解读：曲线呈线性增长，说明训练在按计划推进，且当前已完成约5轮训练。

8. `train/entropy`

含义：模型预测分布的熵值。
解读：熵值越高，代表模型的预测越不确定。你的曲线整体下降，说明模型对训练数据的预测越来越自信，和损失下降、准确率上升的趋势是一致的。

什么是梯度爆炸

在这张 train/grad_norm（梯度范数）图里，梯度爆炸会有非常典型的视觉特征，我们可以对照来看：

1. 梯度爆炸的典型表现（与当前图对比）

数值飙升至极高水平：梯度范数会突然突破正常区间（比如从0.5直接跳到10、100甚至更大），在图上表现为一条几乎垂直向上的尖刺，远超当前图的0.4–0.9范围。
剧烈震荡且无收敛趋势：梯度范数会在极大值和极小值之间反复跳变，曲线波动幅度极大，完全没有当前图中逐渐趋于稳定的迹象。
出现异常值（NaN/Inf）：极端情况下，梯度范数会超出图表的显示范围，甚至直接出现数值溢出（NaN或无穷大），在图上表现为曲线突然中断或消失。

2. 这张图里的情况

这张图中的梯度范数始终在 0.3–1.0 的区间内波动，整体趋势是逐渐收敛并稳定在0.4–0.6之间，没有出现梯度爆炸的特征。

初始阶段的最高值仅为0.9左右，属于正常的梯度范围；
后续波动幅度逐渐缩小，说明模型训练过程中的梯度是稳定的。

3. 一句话总结

如果这张图发生梯度爆炸，你会看到梯度范数曲线突然出现远超当前范围的尖刺，并且伴随无规律的剧烈震荡，而不是像现在这样在小范围内波动并趋于平稳。

http://www.jsqmd.com/news/299564/

相关文章：

循环经济在不同行业的应用前景比较

【避坑指南】Listing 莫名被限流？可能是图片里的“中文残留”害了你！揭秘 AI 如何实现 100% 深度清洗

为什么标准化要用均值0和方差1？

状态仅适用于类组件，或者使用 React 的 Hook 时可以在函数组件中使用。

人群仿真软件：Vadere_（5）.仿真场景设计

【技术解析】为什么 Google 翻译搞不定电商图？揭秘 AI Inpainting 技术如何实现“无痕”图片翻译

人群仿真软件：Vadere_（6）.Vadere中的障碍物设置

【Python自动化】不懂代码怎么批量修图？这款 AI 工具把“脚本思维”封装成了傻瓜式软件！

【SAA】SpringAI Alibaba学习笔记(二)：提示词Prompt - 详解

Java 核心语法精讲：注释、标识符、关键字与数据类型

2026 追番日记

详细介绍：Linux的目录结构

Python核心语法-(一)Python解释器、Python注释 - 努力-

STM32 + FreeRTOS 长期可维护架构：写给那些不敢重构的工程师

人群仿真软件：SimWalk_（20）.人群仿真在零售业中的应用

人群仿真软件：Vadere_（1）.Vadere简介

基于PromptX创建助手角色

初识C语言14.动态内存管理 - 实践

增量微调优化在线更新

【Java 新手必看】比较运算符：从概念到实战，附可运行代码案例

网络考试点下一步出错怎么办？试试这样做

【保姆级教程】移动端部署本地知识库与大模型，小白也能轻松上手（建议收藏）

大模型学习宝典：收藏这份系统性技术框架，从零开始构建LLM

STM32F0实战：基于HAL库开发【2.1】

大语言模型训练原理解析：ChatGPT背后的技术原理与应用价值

MCP与A2A深度解析：AI系统集成与智能体协作的未来之路

【升级版本】基于多目标粒子群算法的微电网优化调度【风光、储能、柴油、燃气、电网交互】附Matlab代码

【实时无功-有功控制器的动态性能】【带有电流控制的两级电压源变流器（VSC）】采用αβ阿尔法-贝塔转换进行电流反馈的实时无功功率控制器附Simulink仿真

【2026最新】大模型面试全攻略：23家科技公司面试经验+高频考点总结，助你轻松上岸