当前位置：首页 > news >正文

SFT微调

news 2026/7/15 12:49:08

背景和价值
1. 微调能不能降低幻觉？
2. 为什么决策 Agent 最适合做微调？
3. 决策 Agent 微调的数据怎么构造？
- - A. 工具调用策略样本（非常关键）
  - B. 拒答样本（降低幻觉特别有效）
  - C. 多意图拆分样本（复杂问题拆解）
4. 微调对降低幻觉的实际效果
- 1️⃣ 决策节点的定义
- 2️⃣ 大模型调用工具的情况
- 3️⃣ 区别于普通生成
参考资料

背景和价值

是的，微调（Fine-tuning）确实是降低幻觉、尤其是优化“决策类 Agent（Coordinator/Router）”行为的有效方法之一。但它的作用场景、收益和限制要明确，否则会“花钱但不增效”。下面给你一个工程化、面试级的完整说明。

可以，但要分场景：

对“内容生成型 LLM”降低幻觉：收益有限（10–20%）
因为生成幻觉是语言模型的固有倾向，光靠微调难以根除。
对“决策型 Agent（Coordinator）”降低幻觉：收益非常明显（30–60%）
决策代理主要判断：
- 是否调用工具
- 调用哪个工具
- 是否使用 RAG
- 是否拒答
- 是否需要澄清
  在这些任务里，微调的作用非常大。

因为它本质上是一个：
分类任务 + 策略选择任务
这类任务属于监督式微调（SFT）的强项。

微调后可以显著改善：

正式说法：
微调可强制模型在特定领域遵守决策逻辑，从源头减少进入生成阶段的幻觉概率。

最常用的三类样本：

输入：
用户 Query
输出：
调用某个工具 / 不调用工具 / 调用多个工具

示例：
“Find X8 的省电模式在哪里？”
→ 调用：产品知识库 RAG

“退货超过 15 天还能退吗？”
→ 调用：售后政策工具

“OPPO Find X7 和 X8 区别，以及 X8 优惠价多少？”
→ 调用：比价工具 + 价格工具

这种微调能让 Agent 不再瞎猜工具，从而减少幻觉。

输入：无法从知识库回答的问题
输出：
“知识库无此信息，请联系客服人工。”

这会显著减少模型的强行编造。

例如：
“帮我比较 Find X7 和 X8，并查一下 X8 优惠价多少”
输出：
意图1：产品比价
意图2：优惠价格查询

多意图拆分微调也能减少幻觉，因为模型不再一次猜测，而是拆解后调用工具。

按照行业数据：

决策节点（Decision Node）指的是系统中根据输入信息做出下一步动作选择的环节。
例如：
- 判断用户意图 → 决定调用哪一个子 Agent（FAQ Agent / 产品信息 Agent / RAG Agent）
- 决定调用哪个外部工具（API / 数据库 / 知识库）
- 决定输出生成策略（直接回答 / 拒答 / 反问用户补充信息）