当前位置：首页 > news >正文

收藏！小白/程序员轻松入门大模型微调：从LoRA到视觉指令微调的进阶指南

news 2026/4/30 2:42:55

本文梳理了视觉大模型微调与适配技术的发展历程，从最初的全量微调因资源限制而带来的挑战，到参数高效微调（PEFT）方法的兴起。文章详细介绍了LoRA、Visual Prompt Tuning（VPT）、Adapter等关键技术，以及它们在视觉大模型微调中的应用与优势。此外，还探讨了轻量微调方法、多模态LoRA、视觉指令微调、RLHF视觉对齐等前沿进展，并展望了自适应智能微调的未来方向。对于想要了解和学习大模型微调的读者，本文提供了一个全面而系统的技术全景。

1、引言：全量微调到PEFT的演进

2022年，当研究者们试图将拥有数十亿参数的视觉基础模型适配到下游任务时，一个尴尬的现实摆在面前：全量微调一个ViT-G需要数百GB显存和数天的训练时间，而大多数实验室连一块A100都难以获得。正是这种"模型越来越大、资源越来越紧"的矛盾，催生了参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）这一蓬勃发展的研究方向。从LoRA的低秩分解到Visual Prompt Tuning的提示学习，从Adapter的瓶颈结构到QLoRA的量化微调，PEFT技术让普通研究者也能驾驭百亿参数的视觉大模型。

视觉大模型微调的发展可以分为几个关键阶段：2012-2019年的全量微调时代，以ImageNet预训练+下游微调为主流范式；2020-2021年的Prompt Tuning和Adapter探索期；2021-2023年的LoRA革命与PEFT方法百花齐放；2023-2025年的多模态微调与视觉指令微调时代；以及2025年至今的RLHF视觉对齐与统一微调框架。每个阶段都在解决一个核心问题：如何用最少的参数和计算量，将通用视觉模型适配到特定任务。

本文将从全量微调与线性探测出发，经过VPT、Adapter、LoRA、QLoRA、轻量微调、多模态LoRA、指令微调、RLHF视觉对齐、PEFT统一框架、数据集与评测，一直到未来展望，全面梳理视觉大模型微调与适配技术的发展脉络。

2、全量微调与线性探测

全量微调（Full Fine-tuning）是最直接的迁移学习方法：在预训练模型的基础上，用下游任务的数据更新所有参数。自AlexNet（2012）以来，"ImageNet预训练→全量微调"成为计算机视觉的标准范式。对于ResNet-50这样的模型（2500万参数），全量微调在大多数任务上都能取得优异性能。然而，随着模型规模从千万级增长到十亿级（ViT-G: 18亿参数）甚至百亿级（InternVL-2: 60亿视觉编码器），全量微调的计算和存储成本变得难以承受。

线性探测（Linear Probing）是全量微调的另一个极端：冻结预训练模型的所有参数，只训练最后一个线性分类头。线性探测的优势是极其高效（只需训练几千个参数），但性能通常不如全量微调。MAE（2022）的实验表明，在ImageNet上线性探测的准确率比全量微调低约5个百分点。线性探测更多被用作评估预训练表示质量的指标，而非实际的适配方法。

全量微调和线性探测代表了"参数效率-性能"权衡的两个极端。PEFT方法的目标正是在这两个极端之间找到最佳平衡点：只更新少量参数（通常不到总参数的1%），却能达到接近全量微调的性能。这一目标在2021年后随着Prompt Tuning、Adapter和LoRA的出现而逐步实现。

3、 Visual Prompt Tuning (VPT)

Visual Prompt Tuning（VPT, Jia et al., ECCV 2022）将NLP中的Prompt Tuning思想引入视觉领域。VPT的核心idea极其简洁：在ViT的输入序列中插入一组可学习的"提示token"（prompt tokens），训练时只更新这些提示token，冻结ViT的所有原始参数。VPT提出了两种变体：VPT-Shallow只在第一层插入提示token，VPT-Deep在每一层都插入。实验表明，VPT-Deep在VTAB-1K基准的24个任务上平均超越了全量微调，同时只需要不到1%的可训练参数。

VPT的成功揭示了一个重要现象：预训练的ViT已经学到了足够丰富的视觉表示，只需要通过少量的"提示"就能引导模型关注特定任务所需的特征。这与NLP中GPT-3通过文本提示完成不同任务的思想一脉相承。

VPT之后，视觉提示学习迅速发展。E2VPT（2023）引入了提示token的剪枝机制，自动去除冗余的提示。DAM-VP（2023）提出了域自适应的视觉提示，根据下游数据的域特征动态调整提示。EVP（2024）将视觉提示扩展到像素空间，直接在输入图像上添加可学习的扰动。

4、 Adapter适配器

Adapter最早由Houlsby等人（ICML 2019）在NLP领域提出，其核心思想是在Transformer的每一层中插入小型的瓶颈模块（bottleneck module）。每个Adapter模块包含一个下投影层（将维度从d降到r）、一个非线性激活函数和一个上投影层（将维度从r恢复到d），加上一个残差连接。通过设置较小的瓶颈维度r（如64），Adapter只引入约0.5-3%的额外参数，却能达到接近全量微调的性能。

AdaptFormer（Chen et al., NeurIPS 2022）将Adapter引入视觉Transformer，并做了关键改进：将Adapter模块放在MLP层的并行分支中（而非串行），这样可以更好地保留原始模型的表示能力。AdaptFormer在视频理解任务上只用2%的可训练参数就超越了全量微调。

Adapter的一个重要优势是模块化：不同任务的Adapter可以独立训练和存储，切换任务时只需替换Adapter模块，无需重新加载整个模型。Conv-Adapter（2024）将Adapter扩展到卷积网络，Spatial-Adapter（2024）引入了空间感知的适配机制。Adapter家族已经成为PEFT方法中最成熟和最广泛使用的技术之一。

5、 LoRA低秩适应

LoRA（Low-Rank Adaptation, Hu et al., ICLR 2022）是PEFT领域最具影响力的方法。LoRA的核心假设是：模型在微调过程中的权重更新矩阵具有低秩特性，可以分解为两个小矩阵的乘积。训练时冻结原始权重W，只更新A和B。推理时将BA合并回W，不引入任何额外延迟。LoRA通常应用于注意力层的Q、K、V投影矩阵，秩r设为4-16即可达到优异性能。

LoRA的优势是多方面的：参数效率极高，r=8时只需约0.1%的可训练参数；推理零开销，合并后的模型与原始模型结构完全相同；支持多任务切换，不同任务的LoRA权重可以热插拔；与量化兼容，可以在量化模型上训练LoRA。这些优势使LoRA迅速成为大模型微调的事实标准。

LoRA的变体层出不穷。LoRA+（2024）发现A和B矩阵应该使用不同的学习率。rsLoRA（2024）引入了秩稳定的缩放因子。AdaLoRA（2023）自适应地为不同层分配不同的秩。LoRA-FA（2024）冻结A矩阵只训练B。PiSSA（2024）用SVD初始化LoRA矩阵，加速收敛。这些改进持续推动着LoRA方法的性能边界。

6、 QLoRA/DoRA/GaLore：量化与高效LoRA

QLoRA（Dettmers et al., NeurIPS 2023）是LoRA的重大突破，它将4-bit量化与LoRA结合，使得在单张48GB GPU上微调65B参数的模型成为可能。QLoRA的三大创新：NF4量化格式、双重量化和分页优化器。QLoRA在Guanaco-65B上达到了ChatGPT 99.3%的性能，同时只需要单GPU训练。

DoRA（Weight-Decomposed Low-Rank Adaptation, Liu et al., ICML 2024）从权重分解的角度改进LoRA。DoRA将预训练权重分解为幅度和方向两个分量，LoRA只更新方向分量，幅度分量通过一个可学习的向量调整。这种分解使DoRA的微调行为更接近全量微调，在多个视觉和语言基准上超越了标准LoRA。

GaLore（Gradient Low-Rank Projection, Zhao et al., ICML 2024）从另一个角度解决内存问题：不是对权重做低秩分解，而是对梯度做低秩投影。GaLore允许全参数训练，同时内存占用与LoRA相当。在LLaMA-7B的预训练实验中，GaLore将内存占用减少了65.5%。

7、 BitFit/SSF/AdaptFormer：轻量微调方法

BitFit（Ben Zaken et al., ACL 2022）是最极简的PEFT方法之一：只微调模型中的偏置项（bias terms），冻结所有其他参数。对于一个ViT-B模型，偏置项只占总参数的约0.1%，但BitFit在多个NLP和视觉任务上达到了接近全量微调的性能。

SSF（Scale and Shift Features, Lian et al., NeurIPS 2022）提出了另一种极简方法：在每一层的输出上添加可学习的缩放因子和偏移量。SSF的可训练参数量与BitFit相当（约0.2%），但在VTAB-1K基准上的平均性能超越了VPT和Adapter。

FacT（Jie & Deng, ICLR 2023）将张量分解引入PEFT。FacT-TK变体只需要0.07%的可训练参数就能在VTAB-1K上超越全量微调。RepAdapter（2024）提出了可重参数化的Adapter，推理时将Adapter合并到原始权重中，实现零推理开销。这些轻量方法证明了大模型微调的"少即是多"原则。

8、多模态LoRA与视觉语言微调

随着多模态大模型的兴起，LoRA在视觉语言微调中扮演了核心角色。LLaVA-1.5的标准训练流程是：第一阶段用全量数据训练视觉-语言投影层，第二阶段用LoRA微调LLM部分。这种组合在保持训练效率的同时达到了优异的多模态理解性能。

VLoRA（2024）将LoRA扩展到视觉编码器端，在视觉编码器上也添加LoRA可以显著提升细粒度视觉理解能力。MoE-LoRA（2024）引入了混合专家机制，为不同类型的视觉输入训练不同的LoRA专家，通过路由网络动态选择。

多模态LoRA的另一个重要应用是Stable Diffusion的风格微调。DreamBooth使用LoRA在3-5张参考图上微调SD实现个性化生成。IP-Adapter通过LoRA将参考图像的风格注入生成过程。LoRA在多模态领域的广泛应用证明了其作为通用微调工具的地位。

9、视觉指令微调 Visual Instruction Tuning

视觉指令微调是2023年以来多模态大模型最重要的训练范式。LLaVA首次提出了这一概念：使用GPT-4生成的158K视觉指令数据，将预训练的视觉编码器和语言模型连接起来，通过指令微调使模型学会遵循用户的视觉相关指令。LLaVA的训练只需要一天时间和8张A100，却在多个视觉问答基准上达到了接近GPT-4V的性能。

视觉指令微调的核心在于数据质量。LLaVA-1.5通过引入更多样化的指令数据将性能大幅提升。ShareGPT4V使用GPT-4V生成了更高质量的图像描述数据。InternVL-Chat使用了超过1200万条多模态指令数据，覆盖了从基础视觉理解到复杂推理的各种任务。

2025年，视觉指令微调进入了新阶段。Qwen-VL 2.5引入了多阶段指令微调策略。InternVL 2.5使用了动态分辨率的指令微调。LLaVA-OneVision统一了图像、视频和多图的指令微调。视觉指令微调已经从"让模型看懂图"演进到"让模型像人一样理解和推理视觉世界"。

10、RLHF/DPO视觉对齐

RLHF在语言模型中的巨大成功自然地延伸到了视觉领域。LLaVA-RLHF首次将RLHF应用于多模态大模型，通过人类偏好数据训练奖励模型，再用PPO算法优化视觉语言模型。LLaVA-RLHF显著减少了模型的幻觉问题，在POPE幻觉评估基准上将幻觉率降低了约30%。

DPO提供了一种更简单的替代方案：不需要训练奖励模型和PPO，直接从偏好数据中优化策略。RLHF-V将DPO应用于视觉幻觉纠正。Silkie使用GPT-4V自动生成偏好数据。RLAIF-V进一步提出了完全自动化的视觉对齐流水线。

2025年，视觉对齐技术持续演进。RLHF-V2引入了多粒度的偏好学习。VLM-RLAIF使用多个视觉模型的共识来生成更可靠的偏好信号。视觉RLHF/DPO已经成为多模态大模型训练流水线中不可或缺的一环，是从"能看懂"到"说得对"的关键步骤。

11、PEFT综述与统一框架

随着PEFT方法的爆发式增长，统一框架和系统性比较变得至关重要。Scaling & Shifting（2023）提出了一个统一视角：所有PEFT方法本质上都在对预训练特征进行缩放和偏移操作，只是实现方式不同。LoRA通过低秩矩阵实现，Adapter通过瓶颈网络实现，VPT通过提示token实现。

Hugging Face的PEFT库成为了PEFT方法的事实标准实现，统一了LoRA、Adapter、Prefix Tuning等多种方法的接口，使研究者可以用几行代码切换不同的PEFT策略。这些开源工具极大地降低了PEFT方法的使用门槛。

UniPEFT（2024）提出了自适应的PEFT组合框架：同时在模型中插入LoRA、Adapter和Prefix Tuning，通过门控机制自动学习每种方法的贡献权重。AutoPEFT使用NAS自动为每个任务选择最优的PEFT配置。这些统一框架标志着PEFT研究从"提出新方法"转向"理解和优化现有方法"的成熟阶段。

12、数据集与评测基准

VTAB-1K是评估视觉PEFT方法最广泛使用的基准，包含19个视觉任务，分为自然图像、专业图像和结构化图像三组。每个任务只提供1000个训练样本，测试模型在少样本场景下的适配能力。

FGVC基准包含5个细粒度分类数据集：CUB-200鸟类、Stanford Cars汽车、Oxford Flowers花卉等。在多模态领域，MMBench、MMMU和MathVista成为了评估视觉指令微调效果的标准基准。

视觉指令微调的训练数据集也在快速发展。LLaVA-Instruct-150K是最早的视觉指令数据集。Cambrian-10M是目前最大的开源视觉指令数据集。RLHF数据方面，VLFeedback和RLAIF-V-Dataset提供了大规模的视觉偏好数据。这些数据集共同构成了视觉大模型微调的数据基础设施。

13、未来展望：迈向自适应智能微调

视觉大模型微调的未来将沿着几个关键方向演进。第一是自适应微调：让模型自动决定最优的微调配置，根据任务特性、数据规模和计算预算自动选择最优策略。AutoPEFT和UniPEFT已经展示了这一方向的可行性。

第二是持续微调与终身学习。O-LoRA和InfLoRA已经开始探索LoRA在持续学习场景下的应用。第三是微调的理论理解：为什么LoRA的低秩假设成立？为什么0.1%的参数就能达到全量微调的性能？完整的理论框架仍然缺失。

第四是微调与推理的统一。Test-Time Training和In-Context Learning已经展示了"边推理边适配"的潜力。从全量微调到LoRA，从视觉提示到指令微调，从RLHF到自适应PEFT，视觉大模型微调的发展史是AI追求"用最少的代价获得最大的能力"的缩影。在基础模型持续扩大的今天，高效微调技术将继续作为连接通用模型与特定应用的关键桥梁。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。