当前位置：首页 > news >正文

LoRA 和 QLoRA 的核心区别

news 2026/5/7 23:53:25

1. LoRA 是什么？

LoRA，全称是Low-Rank Adaptation，低秩适配微调。

正常全参微调是：

模型所有参数都参与训练

比如一个 7B 模型，大约有 70 亿参数，全部训练显存压力很大。

LoRA 的做法是：

冻结原始大模型参数 只在部分线性层旁边加一小组可训练参数 训练这些新增的小参数

也就是说，原模型本体不动，只训练一个“小外挂”。

可以简单画成：

原始权重 W：冻结，不训练 输入 x → W x + LoRA新增参数部分

LoRA 微调完后，保存的不是整个模型，而是一个很小的adapter文件。

例如：

原始模型：7B，十几 GB LoRA adapter：几十 MB 到几百 MB

2. QLoRA 是什么？

QLoRA 可以理解为Quantized LoRA，也就是量化版 LoRA。

它比 LoRA 多做了一步：

先把原始模型从 FP16/BF16 压缩成 4bit 然后再做 LoRA 微调

普通 LoRA：

原模型用 FP16/BF16 加载 LoRA 参数参与训练

QLoRA：

原模型用 4bit 加载 LoRA 参数参与训练

所以 QLoRA 的最大优势是：

显存占用更低

比如同样微调 7B 模型：

微调方式	原模型精度	是否训练原模型	显存占用	效果
全参微调	FP16/BF16	是	很高	上限最高
LoRA	FP16/BF16	否	中等	很好
QLoRA	4bit	否	最低	接近 LoRA

3. 两者最关键的区别

区别一：原模型加载精度不同

LoRA 一般这样：

原模型：FP16 / BF16 LoRA参数：FP16 / BF16

QLoRA 一般这样：

原模型：4bit量化 LoRA参数：FP16 / BF16

所以 QLoRA 更省显存。

区别二：显存需求不同

举个大概例子：

模型规模	LoRA 大概显存	QLoRA 大概显存
7B	16GB 左右	6GB–10GB 左右
13B/14B	32GB 左右	12GB–18GB 左右
30B/32B	60GB+	24GB–32GB 左右
65B/70B	120GB+	48GB–80GB 左右

实际显存还和这些因素有关：

batch size sequence length gradient checkpointing optimizer 是否多卡 是否使用 flash attention

区别三：训练速度和稳定性不同

一般来说：

LoRA：更稳定，训练速度可能更快，效果略好 QLoRA：更省显存，但训练和推理时有量化/反量化开销

如果你的显存够，优先 LoRA。

如果你的显存不够，就用 QLoRA。

4. 效果

通常情况下：

全参微调 > LoRA ≈ QLoRA

但在很多实际任务中，LoRA 和 QLoRA 的效果差距不大。

特别是你做这些任务时：

领域问答 格式转换 标准文件解析 企业年报文本分析 代码风格学习 指令遵循增强

QLoRA 完全够用。

5.部署

如何部署：

服务器情况	推荐
单卡 8GB	QLoRA，小模型
单卡 12GB	QLoRA，3B/7B 级别
单卡 16GB	QLoRA 为主，LoRA 可尝试小模型
单卡 24GB，例如 RTX 3090/4090	QLoRA 微调 7B/14B，LoRA 微调 7B
单卡 48GB	LoRA 7B/14B，QLoRA 32B
A100 80GB	LoRA 32B，QLoRA 70B
多卡服务器	可以考虑 LoRA 大模型或全参微调

如果你是常见的RTX 3090/4090 24GB，推荐：

Qwen2.5-7B-Instruct + QLoRA Qwen3-4B/8B + QLoRA Llama-3.1-8B-Instruct + QLoRA

查看全文

http://www.jsqmd.com/news/773203/

LeetCode - 基本DP

数据库序列（Sequence）

工业级蓝光三维扫描仪在孔位与3D尺寸测量的应用

开源合规风险暴涨300%？AISMM模型如何在72小时内重构企业开源决策中枢，

第31篇：Vibe Coding时代：LangGraph + Celery 后台任务实战，解决 Agent 长任务阻塞接口和服务超时问题

开发者在多模型间切换时如何利用Taotoken保持API调用统一

拯救程序员双眼：Spyder深色模式终极配置指南（2026新版）

Flutter+开源鸿蒙实战｜校园易生活Day4 闲置详情页开发+路由传参+大图轮播+收藏功能+新手避坑

基于人工智能优化算法的宽带多频功率放大器【附代码】

【内含安装包】ArcGIS 10.8安装包速领：中文版详细安装步骤

5个技巧让你轻松下载快手无水印视频：KS-Downloader完全指南

别再只盯着main函数了！手把手带你用MAP文件分析STM32启动文件（startup_stm32xxx.s）的内存占用

自由调音：FxSound音效调节功能详解

如何快速使用Manga OCR：日语漫画文字识别的终极指南

Matlab画图进阶：除了Location，用这些技巧让你的图例更专业（2024版）

【2026奇点智能技术大会权威解码】：AISMM框架落地的3大文化断层与组织级修复指南

Grok赋能OpenClaw：智能机器人抓取系统的AI感知与决策实践

逻辑中涉及到了簇（Cluster）、簇转数组以及数组元素“或”操作，这说明在 LabVIEW 中你是在通过逻辑运算判断这 6 个故障字中是否有任意一个不为 0

初创团队如何利用Taotoken实现多模型API的成本可控与灵活选型

告别截图转文字：用Python的pytesseract+OpenCV搞定图片里的表格和复杂排版

远程终端管理平台XTerminal 有点牛逼！！！一款颜值、功能都很能打的 SSH 客户端工具，支持Linux、Windows、MacOS

2025届学术党必备的十大AI写作网站横评

通过 curl 命令快速测试 taotoken 提供的各种大模型接口

从用量看板分析Taotoken如何帮助团队实现API成本透明化

面向平面任务的机器人最优轨迹规划逆运动学【附代码】

大段文本转Excel（通过HTML直接排版，一键下载Excel）

手机端内核刷入的革命性突破：告别电脑的终极解决方案

月涨粉5000+，“银发网红”速成课正在成为一门好生意？

一键永久备份QQ空间：GetQzonehistory完整指南与使用教程

2026届毕业生推荐的AI辅助论文工具横评