【大模型12步学习路线 · 第10步 · ①原理篇】LLM 微调全景:Full FT / LoRA / QLoRA / DoRA / DPO,从 PEFT 到偏好对齐
【大模型12步学习路线 · 第10步 · ①原理篇】LLM 微调全景:Full FT / LoRA / QLoRA / DoRA / DPO,从 PEFT 到偏好对齐
系列定位:「大模型正确学习顺序」12 步系列第 10 步 · 微调的 ①原理篇。
前置阅读:第 4 步 RAG + 第 9 步私有化部署 —— Veri-Copilot 已经用 Qwen-Coder + RAG 跑起来。
本篇产出:微调 vs RAG vs Prompt 的战略决策 + PEFT 全家桶(LoRA / QLoRA / DoRA / Spectrum)+ LoRA 数学原理 + 超参手册 + DPO/ORPO/GRPO 偏好对齐 + 微调决策树。读完你能从"会调 prompt + 用 RAG" 升级到"会微调适配自己的数据"。
🚀 0. 开场:在 RAG 都能跑出 SOTA 的时代,还需要微调吗?
回忆第 4 步实战篇的关键结论(DeepV 路线):
“纯 RAG + GPT-5 在 VerilogEval 上 +17%,不微调任何模型。”
那为什么还要学微调?三个不可替代的理由:
- 🎯领域适配:RAG 解决"知识"问题,但解决不了"风格"问题。比如公司的 SVA 命名规范、内部 IP 协议的非标准变体,这些必须靠微调让模型"刻进基因";
- 💰推理成本:RAG 每次都要把上下文塞进 prompt(几 KB 的检索片段),token 成本高。微调后模型本身就懂,不需要每次塞;
- 🚀延迟与精度:微调好的小模型能在精度上追平 RAG + 大模型,且延迟低、本地友好;
- 🔬学术价值:DATE 2027 论文 ablation 章节里,"+ LoRA fine-tuning"是一组必跑实验。
Veri-Copilot 的战略:第一阶段不微调 LLM—— 因为投入产出比低、迭代慢;只微调 retriever(ChipNeMo 路线,性价比之王)。第二阶段(本步)加 LoRA,作为论文 ablation 的"上层武器"。
🗺️ 1. 三种适配 LLM 的路线 —— 战略决策
1.1 战略决策表
| 需求 | 优先方案 |
|---|---|
| “教 LLM 我们的术语” | RAG 或 prompt 即可 |
| “教 LLM 我们的命名规范 / 风格” | 微调 |
| “教 LLM 一个全新协议” | RAG + 微调 |
| “压缩推理成本” | 微调小模型 |
| “提升基础能力(代码 / 推理)” | 微调 |
| “动态新知识” | RAG |
| “对话风格” | 微调 + DPO |
💎金句:“知识用 RAG,能力用微调,风格用 DPO。”
