当前位置: 首页 > news >正文

LoRA 为什么必须把一个矩阵初始化为0

LoRA(Low-Rank Adaptation)中必须把其中一个矩阵(通常是 B)初始化为 0的核心原因,是为了让微调在第0步(刚加载预训练权重时)不改变原模型的任何输出,也就是实现“从预训练模型精确起步”。

这不是可有可无的trick,而是LoRA设计中最关键的工程细节之一。

为什么一定要 ΔW = 0 在初始化时刻?

LoRA 的更新形式是:

h = W₀ x + ΔW x = W₀ x + (B A) x
(通常再乘一个缩放因子 α/r)

在训练刚开始的那一刻,如果 ΔW ≠ 0,就会立刻给原模型引入一个随机偏移,这会导致:

  1. 输出突然跳变 → 损失剧烈震荡
  2. 早期梯度不稳定,容易跑偏或梯度爆炸/消失
  3. 破坏了预训练模型已经非常好的初始化(这是最昂贵的部分)

而把 B 初始化为全零矩阵,无论 A 是什么(高斯随机、Kaiming、Xavier 随便),都有:

B A = 0(矩阵乘法性质:任何矩阵乘以零矩阵都得零矩阵)

于是 ΔW = 0 → h = W₀ x,完美保持原模型行为。

为什么不把 A 和 B 都初始化为 0?

初始化方式ΔW 初始化时是否为 0梯度是否为 0早期训练稳定性实际效果(主流实践)
A=0, B=0是(对称性问题)极差基本学不动(梯度对称坍缩)
A=随机, B=随机否(随机大偏移)正常早期震荡大,难收敛
A=随机, B=0(主流)正常很好最稳定,推荐
A=0, B=随机正常较好比主流稍差一些
  • 全零→ 所有神经元对称,梯度相同 → 学不动(经典的 zero init 灾难)
  • 都随机→ 相当于突然给预训练权重加了一个随机低秩扰动 → 相当于从一个很差的起点开始微调,浪费了预训练的优势

所以主流(包括原论文、PEFT库、绝大多数开源实现)都选A 随机小方差初始化 + B = 0

2024–2025 年的新研究:其实不“必须”了

最近一些工作(尤其是 infinite-width 理论分析 + 大量实验)发现:

  • 如果把 A 和 B都用很小的非零值初始化(比如缩小标准差),训练其实也能正常进行
  • 甚至在某些情况下(特别小 learning rate 时)更鲁棒
  • 微调不一定非要从精确的预训练模型开始,加一点小的随机噪声通常不影响最终性能

代表工作:

  • “Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics” (ICML 2025)
  • 结论:非零初始化可以提升对次优学习率的鲁棒性,且最终精度往往不差甚至略好

但目前工程界仍然强烈推荐 B 初始化为 0,原因主要是:

  • 最稳(early training 几乎不会炸)
  • 最可复现
  • 和绝大多数已有 checkpoint / 教程 / huggingface peft 代码一致

总结一句话

LoRA 把 B 初始化为 0 的根本目的是:让低秩适配器在训练第0步“什么都不做”,从而最大限度地继承预训练模型的优秀初始化和稳定性。

这是工程上“稳”压倒一切的典型案例。

如果你现在做实验:

  • 想最稳 → 继续用 B=0
  • 想探索极限 / 小学习率场景 → 可以试试双随机小方差初始化(注意要配合更小的初始学习率)

你是在 debug LoRA 训练不稳定,还是在准备面试/写论文想深入理解这个细节?可以告诉我具体场景,我再给你更针对性的建议~

http://www.jsqmd.com/news/409147/

相关文章:

  • 2026年广州蕾蒙威手表维修推荐榜单评测:非官方专业售后网点服务选择指南 - 十大品牌推荐
  • 2026年广州蕾蒙威手表维修推荐榜单:非官方维修网点服务评测与选择指南 - 十大品牌推荐
  • 2026年广州理查米尔手表维修推荐榜单:非官方维修点售后网点服务评测 - 十大品牌推荐
  • 2026年广州雷达手表维修网点推荐评测:非官方服务中心选择指南与避坑排名 - 十大品牌推荐
  • NMN市场的贫富差距:普通人在纠结价格,1%的精英早已在吃奥本元 - 资讯焦点
  • 《梦断代码》读书笔记
  • 2026年广州雷达手表维修推荐榜单:非官方维修网点服务评测与选择指南 - 十大品牌推荐
  • 2026年广州雷达手表维修网点推荐评测:非官方服务中心榜单与选择避坑指南 - 十大品牌推荐
  • 2026年广州康斯登手表维修推荐评测:非官方维修点选择指南与网点服务排名分析 - 十大品牌推荐
  • MATLAB通过网格搜索和交叉验证优化 SVR 的两个关键参数惩罚因子和核函数参数,以提高模型的预测精度
  • 2026年广州孔雀表手表维修推荐榜单:非官方维修点评测与售后网点选择指南 - 十大品牌推荐
  • 2026年广州浪琴手表维修评测推荐:非官方网点服务排名与售后选择指南 - 十大品牌推荐
  • 2026年广州劳力士手表维修推荐评测:非官方维修点选择指南与全国服务网点排名 - 十大品牌推荐
  • 2026年广州孔雀表手表维修推荐榜单:非官方维修点售后网点服务评测 - 十大品牌推荐
  • 视频孪生时代的终结镜像视界空间神经中枢与前向空间控制引擎
  • 2026年广州劳力士手表维修评测与排名:非官方网点服务售后中心选择指南 - 十大品牌推荐
  • 2026年广州劳力士手表维修推荐榜单:非官方维修点甄选与售后网点服务评测 - 十大品牌推荐
  • 2026年广州康斯登手表维修推荐榜单:非官方维修点评测与网点服务指南 - 十大品牌推荐
  • 2026年广州朗格手表维修推荐榜单:非官方维修网点服务评测与选择指南 - 十大品牌推荐
  • 《人月神话》读书笔记
  • 2026年广州浪琴手表维修推荐榜单:非官方维修点甄选与售后网点服务评测 - 十大品牌推荐
  • 2026年广州朗格手表维修推荐评测:非官方维修点选择指南与网点服务排名分析 - 十大品牌推荐
  • 2026年广州康斯登手表维修非官方网点推荐评测:寻找可靠售后服务的实用指南 - 十大品牌推荐
  • 2026年广州孔雀表手表维修推荐榜单:非官方维修网点服务评测与选择指南 - 十大品牌推荐
  • 传感器数据采集与存储:大数据技术实战指南
  • 基于微信小程序的社区团购管理系统毕业设计源码
  • 垂直农业技术的发展与投资前景
  • BISHI74 【模板】非质模数下的乘法逆元
  • AI大模型面经——大模型新手必看:超详细训练与微调实操经验,收藏学习路径助你快速入门!
  • 一篇讲透智能体(AI_Agent),建议收藏!