当前位置: 首页 > news >正文

完全开源的语言模型学习记录--Lora-Pre低秩优化器

文章目录

  • 一、一段话总结
  • 二、思维导图
  • 三、详细总结
    • 1. 研究背景与动机
    • 2. 核心理论突破
    • 3. LoRA-Pre方法设计
      • 3.1 低秩动量压缩
      • 3.2 优化器适配
    • 4. 实验结果
      • 4.1 预训练效果(C4数据集,困惑度越低越好)
      • 4.2 微调效果(MetaMathQA,平均分越高越好)
      • 4.3 秩效率
    • 5. 核心贡献
  • 四、关键问题与答案
      • 问题1:LoRA-Pre相比传统低秩优化方法(如GaLore)的核心优势是什么?
      • 问题2:LoRA-Pre如何解决二阶动量压缩的符号问题?
      • 问题3:LoRA-Pre在预训练与微调场景的适用范围与效果差异?


https://arxiv.org/pdf/2602.24283v1
https://github.com/mrflogs/LoRA-Pre
Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation


一、一段话总结

本文提出LoRA-Pre,一种面向大模型预训练与微调的低秩优化器,通过证明动量EMA更新等价于在线线性回归,将动量矩阵分解为低秩矩阵乘积以压缩优化器状态,大幅降低内存开销;该方法适配Adam与Muon优化器,在60M–1B参数Llama模型预训练中取得最优困惑度,微调阶段较标准LoRA在Llama3.1-8B提升3.14分、Llama-2-7B提升6.17分,秩效率达基线的8–16倍


二、思维导图

## **核心创新** - 理论:EMA动量 ≡ 在线线性回归 - 方法:低秩分解压缩动量 - 适配:Adam / Muon优化器 ## **方法细节** - 一阶动量:m = m_B·m_A - 二阶动量:v=(v_B·v_A)°² - 更新规则:牛顿法闭式解 - 超参耦合:(1-γ₁)²=β₁ ## **实验验证** - 预训练:60M/130M/350M/1B Llama - 微调:Llama-2-7B/3.1-8B数学任务 - 秩效率:1/8~1/16秩匹配基线 ## **效果优势** - 预训练:困惑度显著降低 - 微调:精度大幅领先 - 内存:复杂度p×q→(p+q)×r - 兼容:多优化器、多模型规模

三、详细总结

1. 研究背景与动机

大语言模型预训练/微调的核心瓶颈是优化器状态内存开销,Adam/Muon需存储一阶、二阶动量,内存占用达模型权重3倍。现有低秩优化方法依赖周期性子空间更新,易出现误差累积与优化中断,预训练场景适配性差。

2. 核心理论突破

建立动量EMA更新与在线线性回归的数学等价性

  • 动量更新公式可转化为最小化损失:min ⁡ m L ( m ; g ) = 1 2 ∥ m − g ∥ F 2 \min_{m} L(m;g)=\frac{1}{2}\|m-g\|_F^2minmL(m;g)=21mgF2
  • 证明EMA本质是用梯度流训练线性回归器,为低秩压缩提供理论基础

3. LoRA-Pre方法设计

3.1 低秩动量压缩

  • 一阶动量:将全秩矩阵m ∈ R p × q m∈\mathbb{R}^{p×q}mRp×q分解为m B ∈ R p × r m_B∈\mathbb{R}^{p×r}mBRp×rm A ∈ R r × q m_A∈\mathbb{R}^{r×q}mARr×qr ≪ m i n ( p , q ) r≪min(p,q)rmin(p,q)
  • 二阶动量:采用v = ( v B ⋅ v A ) ∘ 2 v=(v_B·v_A)^{\circ 2}v=(vBvA)2重参数化,保证元素恒正
  • 内存复杂度:从p × q p×qp×q降至( p + q ) × r (p+q)×r(p+q)×r,实现大幅节省

3.2 优化器适配

  • 推出LoRA-Pre AdamLoRA-Pre Muon两种变体
  • 基于牛顿法推导闭式更新规则,无需反向传播,计算高效
  • 超参耦合:( 1 − γ 1 ) 2 = β 1 (1-\gamma_1)^2=\beta_1(1γ1)2=β1( 1 − γ 2 ) 4 = β 2 (1-\gamma_2)^4=\beta_2(1γ2)4=β2,无需额外调参

4. 实验结果

4.1 预训练效果(C4数据集,困惑度越低越好)

模型规模60M130M350M1B
LoRA-Pre Adam32.5723.7816.3613.53
LoRA-Pre Muon30.7623.0516.9713.92
最优基线31.1924.5117.2214.31

4.2 微调效果(MetaMathQA,平均分越高越好)

模型LoRA-Pre提升幅度
Llama3.1-8B+3.14分
Llama-2-7B+6.17分

4.3 秩效率

  • 60M模型:rank=16匹配GaLore rank=128,秩效率8倍
  • 130M模型:rank=16匹配GaLore rank=256,秩效率16倍

5. 核心贡献

  1. 建立EMA动量与在线线性回归的全新理论关联
  2. 提出LoRA-Pre低秩优化器,支持预训练+微调全流程
  3. 实验验证内存高效、性能领先、秩效率与兼容性优异

四、关键问题与答案

问题1:LoRA-Pre相比传统低秩优化方法(如GaLore)的核心优势是什么?

答案:核心优势是动态连续子空间更新,GaLore等依赖周期性SVD子空间更新,易产生误差累积;LoRA-Pre每步直接更新低秩因子,无延迟、无中断,同时秩效率更高,仅需1/8–1/16秩即可达到基线性能。

问题2:LoRA-Pre如何解决二阶动量压缩的符号问题?

答案:对二阶动量采用重参数化策略,将v vv表示为v = ( v B ⋅ v A ) ∘ 2 v=(v_B·v_A)^{\circ 2}v=(vBvA)2(哈达玛积平方),确保所有元素为正,满足Adam优化器中v \sqrt{v}v的计算要求,同时保留低秩结构。

问题3:LoRA-Pre在预训练与微调场景的适用范围与效果差异?

答案:预训练:适配60M–1B参数Llama模型,在C4数据集上困惑度全面超越Adam、Muon、GaLore等基线,大模型优势更明显;微调:适配Llama-2-7B、Llama3.1-8B,数学任务精度显著优于LoRA、DoRA、GaLore,同秩下效果领先。

http://www.jsqmd.com/news/692465/

相关文章:

  • 2026年黑龙江耐寒牡丹苗批发与园林绿化全产业链采购指南 - 年度推荐企业名录
  • 谷歌开源工具stressapptest实战:手把手教你给嵌入式Linux设备做内存压力测试
  • 【2026年最新版|建议收藏】0基础小白程序员必看!大模型从入门到精通全攻略
  • Mask R-CNN技术解析:从原理到工业应用
  • 告别昂贵动捕设备:用普通摄像头+OpenCV+Unity,低成本实现全身动作驱动角色动画
  • 2026年东莞柔性机器人加工厂排名,高性价比品牌推荐 - 工业品网
  • HS2-HF_Patch终极指南:三步轻松完成Honey Select 2汉化与优化
  • 2026西安(未央区)全屋定制及家具定制区域市场服务商、代理商、供应商选型指南 - 速递信息
  • 1122111
  • 大模型面试全攻略:小白程序员必备的收藏版面经与技巧分享
  • 别再只用Word了!用Confluence搭建团队知识库,从创建空间到权限管理保姆级教程
  • 2026年盘点重载机器人制造厂价格,哪家费用更合理? - myqiye
  • 2026年泉州靠谱的新房装修设计公司排名,新房装修设计流程探讨 - mypinpai
  • centos下Portainer,可视化的Docker和Kubernetes容器管理工具安装
  • Ai2Psd:打破Adobe设计工具壁垒,3个关键步骤实现AI到PSD的无损转换
  • 抖音视频批量下载终极指南:开源工具免费下载无水印视频
  • 九度美术艺考培训学校高考美术辅导好用吗,在巴彦淖尔价格贵不贵? - 工业推荐榜
  • D3keyHelper:暗黑3一键宏终极指南,让你的游戏效率提升300%
  • 如何永久保存微信聊天记录?3分钟掌握WeChatMsg数据备份终极指南
  • 工业互联网深度观察:时序数据库如何重塑制造业数据底座
  • Amlogic S9xxx系列电视盒子刷入Armbian系统终极实战指南
  • C++ 重写《算法(第4版)》1.2 节的代码以及该节习题解答 - green
  • 黑龙江耐寒牡丹苗批发采购指南:2026年园林绿化全产业链深度评测 - 年度推荐企业名录
  • 一文读懂UPS不间断电源分类
  • 气泡图 (Balloon Drawing) 数字化处理与 FAI 检验计划实务
  • 说说高性价比的高考美术培训公司,包头九度美术艺考培训学校靠谱吗? - mypinpai
  • 告别手动上传:用Jenkins + Windows计划任务实现项目自动重启与状态监控
  • 解锁音乐自由:3分钟学会将网易云音乐NCM文件转为通用格式 [特殊字符]
  • 官方发布丨2024年8月CFA考试成绩发布时间(附评分流程说明) - 速递信息
  • 2026年3月王仁和酒口感推荐,优选品牌推荐与解析 - 品牌推荐师