当前位置：首页 > news >正文

【大模型12步学习路线 · 第10步 · ①原理篇】LLM 微调全景:Full FT / LoRA / QLoRA / DoRA / DPO,从 PEFT 到偏好对齐

news 2026/7/14 8:39:22

【大模型12步学习路线 · 第10步 · ①原理篇】LLM 微调全景:Full FT / LoRA / QLoRA / DoRA / DPO,从 PEFT 到偏好对齐

系列定位:「大模型正确学习顺序」12 步系列第 10 步 · 微调的 ①原理篇。
前置阅读:第 4 步 RAG + 第 9 步私有化部署 —— Veri-Copilot 已经用 Qwen-Coder + RAG 跑起来。
本篇产出:微调 vs RAG vs Prompt 的战略决策 + PEFT 全家桶(LoRA / QLoRA / DoRA / Spectrum)+ LoRA 数学原理 + 超参手册 + DPO/ORPO/GRPO 偏好对齐 + 微调决策树。读完你能从"会调 prompt + 用 RAG" 升级到"会微调适配自己的数据"。

🚀 0. 开场:在 RAG 都能跑出 SOTA 的时代,还需要微调吗?

回忆第 4 步实战篇的关键结论(DeepV 路线):

“纯 RAG + GPT-5 在 VerilogEval 上 +17%,不微调任何模型。”

那为什么还要学微调?三个不可替代的理由:

🎯领域适配:RAG 解决"知识"问题,但解决不了"风格"问题。比如公司的 SVA 命名规范、内部 IP 协议的非标准变体,这些必须靠微调让模型"刻进基因";
💰推理成本:RAG 每次都要把上下文塞进 prompt(几 KB 的检索片段),token 成本高。微调后模型本身就懂,不需要每次塞;
🚀延迟与精度:微调好的小模型能在精度上追平 RAG + 大模型,且延迟低、本地友好;
🔬学术价值:DATE 2027 论文 ablation 章节里,"+ LoRA fine-tuning"是一组必跑实验。

Veri-Copilot 的战略:第一阶段不微调 LLM—— 因为投入产出比低、迭代慢;只微调 retriever(ChipNeMo 路线,性价比之王)。第二阶段(本步)加 LoRA,作为论文 ablation 的"上层武器"。

🗺️ 1. 三种适配 LLM 的路线 —— 战略决策

1.1 战略决策表

需求	优先方案
“教 LLM 我们的术语”	RAG 或 prompt 即可
“教 LLM 我们的命名规范 / 风格”	微调
“教 LLM 一个全新协议”	RAG + 微调
“压缩推理成本”	微调小模型
“提升基础能力(代码 / 推理)”	微调
“动态新知识”	RAG
“对话风格”	微调 + DPO