当前位置: 首页 > news >正文

SFT微调

目录
  • 背景和价值
  • 1. 微调能不能降低幻觉?
  • 2. 为什么决策 Agent 最适合做微调?
  • 3. 决策 Agent 微调的数据怎么构造?
      • A. 工具调用策略样本(非常关键)
      • B. 拒答样本(降低幻觉特别有效)
      • C. 多意图拆分样本(复杂问题拆解)
  • 4. 微调对降低幻觉的实际效果
    • 1️⃣ 决策节点的定义
    • 2️⃣ 大模型调用工具的情况
    • 3️⃣ 区别于普通生成
  • 参考资料

背景和价值

是的,微调(Fine-tuning)确实是降低幻觉、尤其是优化“决策类 Agent(Coordinator/Router)”行为的有效方法之一。但它的作用场景、收益和限制要明确,否则会“花钱但不增效”。下面给你一个工程化、面试级的完整说明。


1. 微调能不能降低幻觉?

可以,但要分场景:

  • 对“内容生成型 LLM”降低幻觉:收益有限(10–20%)
    因为生成幻觉是语言模型的固有倾向,光靠微调难以根除。

  • 对“决策型 Agent(Coordinator)”降低幻觉:收益非常明显(30–60%)
    决策代理主要判断:

    • 是否调用工具
    • 调用哪个工具
    • 是否使用 RAG
    • 是否拒答
    • 是否需要澄清
      在这些任务里,微调的作用非常大。

2. 为什么决策 Agent 最适合做微调?

因为它本质上是一个:
分类任务 + 策略选择任务
这类任务属于监督式微调(SFT)的强项。

微调后可以显著改善:

  1. Query → 工具调用的准确率
  2. Query → 检索策略路由(是否需要 RAG,是否元数据过滤)
  3. Query → 是否拒答(降低幻觉)
  4. Query → 多意图拆分(例如“比价 + 查报价”)
  5. Query → 风险内容过滤(避免胡乱生成)

正式说法:
微调可强制模型在特定领域遵守决策逻辑,从源头减少进入生成阶段的幻觉概率。


3. 决策 Agent 微调的数据怎么构造?

最常用的三类样本:

A. 工具调用策略样本(非常关键)

输入:
用户 Query
输出:
调用某个工具 / 不调用工具 / 调用多个工具

示例:
“Find X8 的省电模式在哪里?”
→ 调用:产品知识库 RAG

“退货超过 15 天还能退吗?”
→ 调用:售后政策工具

“OPPO Find X7 和 X8 区别,以及 X8 优惠价多少?”
→ 调用:比价工具 + 价格工具

这种微调能让 Agent 不再瞎猜工具,从而减少幻觉。


B. 拒答样本(降低幻觉特别有效)

输入:无法从知识库回答的问题
输出:
“知识库无此信息,请联系客服人工。”

这会显著减少模型的强行编造。


C. 多意图拆分样本(复杂问题拆解)

例如:
“帮我比较 Find X7 和 X8,并查一下 X8 优惠价多少”
输出:
意图1:产品比价
意图2:优惠价格查询

多意图拆分微调也能减少幻觉,因为模型不再一次猜测,而是拆解后调用工具。


4. 微调对降低幻觉的实际效果

按照行业数据:

  • 工具路由准确率提升 20–40%
  • 拒答正确率提升 40–60%
  • Agent 幻觉下降 30–50%
  • RAG 回答整体错误率降到 <10%

1️⃣ 决策节点的定义

  • 决策节点(Decision Node)指的是系统中根据输入信息做出下一步动作选择的环节

  • 例如:

    • 判断用户意图 → 决定调用哪一个子 Agent(FAQ Agent / 产品信息 Agent / RAG Agent)
    • 决定调用哪个外部工具(API / 数据库 / 知识库)
    • 决定输出生成策略(直接回答 / 拒答 / 反问用户补充信息)

2️⃣ 大模型调用工具的情况

  • 当大模型被用来解析用户请求 + 判断调用哪个工具 + 调用工具 + 收集工具结果时,这个模型实际上就在做“决策”,所以这个环节就是一个决策节点。

  • 例子:

    • 用户问“我想知道 X8 优惠后的价格”,Coordinator 模型:

      • 识别意图:比价 + 价格查询
      • 决定调用 价格查询工具
      • 获取结果后决定如何生成回答
    • 这里 Coordinator + 调用工具的动作就是一个完整决策节点。


3️⃣ 区别于普通生成

  • 普通生成(只生成文本回答) → 不一定是决策节点
  • 如果模型不仅生成回答,还要选择下一步操作 / 路由 / 工具调用 → 就是决策节点

总结一句话

在智能客服系统中,调用工具的大模型不仅生成内容,同时决定下一步操作与路由,因此完全可以视为决策节点。

参考资料

http://www.jsqmd.com/news/63012/

相关文章:

  • 全面解析DoS攻击:防御策略与应急响应指南
  • 要提高脑电模型的准确性,就必须让模型学会“无视个体差异”,抓住真正稳定、跨人的特征。
  • AI如何赋能游戏,为所有玩家创造更佳体验
  • cnn/rnn/Transformer
  • PbootCMS网站转移后无法打开报错提示“No input file specifed”
  • kanass零基础学习,项目负责人如何启用kanass驾驭项目
  • 意义的行为化:AI时代法律体系的数字通译与演进之道
  • 讲一讲 Transformer 在脑电 EEG 里的作用
  • 贪心算法之: 田忌赛马
  • 49
  • laya给自己画边框
  • 小游戏联机服务开发实践:从零构建房间匹配与帧同步系统
  • 接口
  • Object类
  • Владимир
  • HTML--------------动态列表
  • VSCode使用Jupyter完整指南配备机器学习环境
  • PbootCMS提示错误信息“未检测到您服务器环境的sqlite3数据库扩展...”
  • PbootCMS登录失败:数据库目录写入权限不足!
  • 为了让 EEG 模型对不同人、不同时间都准确,要做到:
  • 二十四宿想象气功
  • 京剧:金玉奴【定场诗】
  • pbootcms后台公司信息的内容如何调用到前台页面上
  • 2025.12.5博客
  • 2025.12.5博客
  • 南京大学 AI 导论 Cart-Pole V1 游戏(强化学习)
  • Korean
  • Day56(26)-F:\vs_ai_work\vue-tlias-management\vue-tlias-management\src\views\layout\index.vue
  • AI Agent 设计原则与最佳实践
  • 全网热议!2025年重庆全屋定制厂家销量推荐榜单