当前位置: 首页 > news >正文

LoRA 和 QLoRA 的核心区别

1. LoRA 是什么?

LoRA,全称是Low-Rank Adaptation,低秩适配微调。

正常全参微调是:

模型所有参数都参与训练

比如一个 7B 模型,大约有 70 亿参数,全部训练显存压力很大。

LoRA 的做法是:

冻结原始大模型参数 只在部分线性层旁边加一小组可训练参数 训练这些新增的小参数

也就是说,原模型本体不动,只训练一个“小外挂”。

可以简单画成:

原始权重 W:冻结,不训练 输入 x → W x + LoRA新增参数部分

LoRA 微调完后,保存的不是整个模型,而是一个很小的adapter文件。

例如:

原始模型:7B,十几 GB LoRA adapter:几十 MB 到几百 MB

2. QLoRA 是什么?

QLoRA 可以理解为Quantized LoRA,也就是量化版 LoRA。

它比 LoRA 多做了一步:

先把原始模型从 FP16/BF16 压缩成 4bit 然后再做 LoRA 微调

普通 LoRA:

原模型用 FP16/BF16 加载 LoRA 参数参与训练

QLoRA:

原模型用 4bit 加载 LoRA 参数参与训练

所以 QLoRA 的最大优势是:

显存占用更低

比如同样微调 7B 模型:

微调方式原模型精度是否训练原模型显存占用效果
全参微调FP16/BF16很高上限最高
LoRAFP16/BF16中等很好
QLoRA4bit最低接近 LoRA

3. 两者最关键的区别

区别一:原模型加载精度不同

LoRA 一般这样:

原模型:FP16 / BF16 LoRA参数:FP16 / BF16

QLoRA 一般这样:

原模型:4bit量化 LoRA参数:FP16 / BF16

所以 QLoRA 更省显存。


区别二:显存需求不同

举个大概例子:

模型规模LoRA 大概显存QLoRA 大概显存
7B16GB 左右6GB–10GB 左右
13B/14B32GB 左右12GB–18GB 左右
30B/32B60GB+24GB–32GB 左右
65B/70B120GB+48GB–80GB 左右

实际显存还和这些因素有关:

batch size sequence length gradient checkpointing optimizer 是否多卡 是否使用 flash attention

区别三:训练速度和稳定性不同

一般来说:

LoRA:更稳定,训练速度可能更快,效果略好 QLoRA:更省显存,但训练和推理时有量化/反量化开销

如果你的显存够,优先 LoRA。

如果你的显存不够,就用 QLoRA。


4. 效果

通常情况下:

全参微调 > LoRA ≈ QLoRA

但在很多实际任务中,LoRA 和 QLoRA 的效果差距不大。

特别是你做这些任务时:

领域问答 格式转换 标准文件解析 企业年报文本分析 代码风格学习 指令遵循增强

QLoRA 完全够用。


5.部署

如何部署:

服务器情况推荐
单卡 8GBQLoRA,小模型
单卡 12GBQLoRA,3B/7B 级别
单卡 16GBQLoRA 为主,LoRA 可尝试小模型
单卡 24GB,例如 RTX 3090/4090QLoRA 微调 7B/14B,LoRA 微调 7B
单卡 48GBLoRA 7B/14B,QLoRA 32B
A100 80GBLoRA 32B,QLoRA 70B
多卡服务器可以考虑 LoRA 大模型或全参微调

如果你是常见的RTX 3090/4090 24GB,推荐:

Qwen2.5-7B-Instruct + QLoRA Qwen3-4B/8B + QLoRA Llama-3.1-8B-Instruct + QLoRA
http://www.jsqmd.com/news/773203/

相关文章:

  • LeetCode - 基本DP
  • 数据库序列(Sequence)
  • 工业级蓝光三维扫描仪在孔位与3D尺寸测量的应用
  • 开源合规风险暴涨300%?AISMM模型如何在72小时内重构企业开源决策中枢,
  • 第31篇:Vibe Coding时代:LangGraph + Celery 后台任务实战,解决 Agent 长任务阻塞接口和服务超时问题
  • 开发者在多模型间切换时如何利用Taotoken保持API调用统一
  • 拯救程序员双眼:Spyder深色模式终极配置指南(2026新版)
  • Flutter+开源鸿蒙实战|校园易生活Day4 闲置详情页开发+路由传参+大图轮播+收藏功能+新手避坑
  • 基于人工智能优化算法的宽带多频功率放大器【附代码】
  • 【内含安装包】ArcGIS 10.8安装包速领:中文版详细安装步骤
  • 5个技巧让你轻松下载快手无水印视频:KS-Downloader完全指南
  • 别再只盯着main函数了!手把手带你用MAP文件分析STM32启动文件(startup_stm32xxx.s)的内存占用
  • 自由调音:FxSound音效调节功能详解
  • 如何快速使用Manga OCR:日语漫画文字识别的终极指南
  • Matlab画图进阶:除了Location,用这些技巧让你的图例更专业(2024版)
  • 【2026奇点智能技术大会权威解码】:AISMM框架落地的3大文化断层与组织级修复指南
  • Grok赋能OpenClaw:智能机器人抓取系统的AI感知与决策实践
  • 逻辑中涉及到了簇(Cluster)、簇转数组以及数组元素“或”操作,这说明在 LabVIEW 中你是在通过逻辑运算判断这 6 个故障字中是否有任意一个不为 0
  • 初创团队如何利用Taotoken实现多模型API的成本可控与灵活选型
  • 告别截图转文字:用Python的pytesseract+OpenCV搞定图片里的表格和复杂排版
  • 远程终端管理平台XTerminal 有点牛逼!!!一款颜值、功能都很能打的 SSH 客户端工具,支持Linux、Windows、MacOS
  • 2025届学术党必备的十大AI写作网站横评
  • 通过 curl 命令快速测试 taotoken 提供的各种大模型接口
  • 从用量看板分析Taotoken如何帮助团队实现API成本透明化
  • 面向平面任务的机器人最优轨迹规划逆运动学【附代码】
  • 大段文本转Excel(通过HTML直接排版,一键下载Excel)
  • 手机端内核刷入的革命性突破:告别电脑的终极解决方案
  • 月涨粉5000+,“银发网红”速成课正在成为一门好生意?
  • 一键永久备份QQ空间:GetQzonehistory完整指南与使用教程
  • 2026届毕业生推荐的AI辅助论文工具横评