当前位置: 首页 > news >正文

[智能体-176]:为了支持工具调用和JSON Schema,大模型需要针对性的进行模型的训练吗?

结论:基础预训练不自带工具调用 / JSON Schema 能力;商用模型(如 GPT-4o)是做过专项训练;开源模型可通过微调补上;推理时还可配合约束解码强保格式

下面分训练、推理、工程落地三部分讲清楚。


一、预训练:不会天然支持

普通预训练(Next Token Prediction)只学文本续写,不懂工具调用协议,也不懂 JSON Schema 规范

  • 见过 JSON 文本,但没学过 “按 Schema 生成”“用指定格式发起函数调用”
  • 没学会 “何时调用工具、选哪个工具、怎么填参数”
  • 直接用:会说 “我需要查天气 API”,而不是输出合法tool_callsJSON

二、商用模型(OpenAI):必须专项训练

GPT-3.5/4/4o 的Tools+JSON Schema 能力是训出来的,分三步:

1. 监督微调 SFT(教格式)
  • 数据:大量对话 + 工具定义 + 标准 tool_call JSON + 工具结果 + 最终回答的完整样本
  • 目标:学会
    • 看懂tools里的函数名、描述、参数 Schema
    • 输出严格符合 JSON Schematool_calls(含 id、name、arguments)
    • 多轮、并行调用格式正确
2. RLHF/RLVR(教决策)
  • 解决 SFT 后的 “滥用工具” 问题(如 1+1 也调计算器)
  • 奖励信号:
    • 格式正确(JSON 合法、Schema 匹配)
    • 决策正确(该调用才调用,选对工具)
    • 结果有用(工具返回后能生成正确回答)
3. 结构化输出专项(strict: true)
  • 针对强 Schema 约束(如嵌套对象、enum、必填字段)做额外训练
  • 目标:开启strict: true100% 符合 Schema,无幻觉字段、类型错误、缺失必填项

三、开源模型:可训可不训(两条路)

1. 不训练:纯推理约束(弱到中)
  • 提示工程:System Prompt 写死工具格式 + Schema + 示例
  • 后处理:正则 / JSON 校验,错了重试
  • 约束解码(部分框架支持):生成时按 Schema 做 FSM 状态机,只允许合法 token
  • 缺点:复杂 Schema / 多轮调用易崩,稳定性差
2. 轻量微调(推荐,强)
  • 1 万~5 万条工具调用样本做 LoRA 微调(成本低,单卡几小时)
  • 数据:合成或开源工具调用数据集(如 ShareGPT-FuncCall)
  • 效果:接近 GPT-3.5 的工具调用 + JSON Schema 遵循能力

四、推理时的 “双保险”

即使训过,生产环境仍要加:

  1. 服务端约束解码(OpenAI/Anthropic/ 部分开源框架):strict: true时,生成阶段强制按 Schema 走,不合法 token 直接屏蔽,100% 合法
  2. 客户端校验拿到arguments后用 JSON Schema 校验,失败则重试或告警

五、一句话总结

  • 无训练:只能靠提示 + 后处理,复杂场景不稳
  • 商用模型:SFT+RLHF + 结构化专项训练,开箱即用强能力
  • 开源模型:LoRA 微调性价比最高;推理配合约束解码更稳
http://www.jsqmd.com/news/922278/

相关文章:

  • 如何免费解锁Wand专业版:3步轻松获取完整游戏修改体验
  • 保姆级教程:在瑞萨RH850/P1x-C上,手把手教你配置HSM与主核的共享内存与中断通信
  • Parsec VDD命令行操作指南:高效管理虚拟显示器
  • 告别卡顿!在VMware Workstation 17上给Ubuntu 22.04分配4G内存和双核CPU的保姆级配置指南
  • 终极暗黑3技能连点器指南:如何一键解放双手提升游戏效率
  • 18款开发者效率工具全景解析:从编码到部署的实战利器
  • 从《原神》到独立游戏:拆解Unity Quality设置如何影响玩家的第一眼印象
  • 保姆级教程:在CentOS 7上用StarRocks 3.0.9搭建实时数仓,搞定Hive数据同步
  • 物联网开发者调查报告解读:MQTT、边缘计算与JSON的技术选型指南
  • 别再为宝塔通知发愁了!手把手教你用Ubuntu 22.04 + Postfix搭建专属SMTP发信服务
  • DePIN与以太坊融合:构建去中心化物理基础设施网络的技术架构与实践
  • CAPL lookup函数避坑大全:从SOME/IP服务信号到FlexRay PDU,这些细节你注意了吗?
  • 彻底解决PCL2启动器Mod注入失败问题:从现象诊断到完美修复
  • 嵌入式开发避坑指南:手把手教你选型与驱动W25Q16/W25Q64 SPI Flash(附GD25Q128对比)
  • 如何让Zotero自动下载学术论文PDF:终极Sci-Hub插件配置指南
  • 从有线到无线:实测Type-C和蓝牙Console线连接华为交换机,哪种更适合你?
  • 老笔记本焕新颜:ThinkPad X270加装M.2 SSD后,如何不重装系统完美克隆Win10并解决启动问题
  • 抖音批量下载工具深度解析:如何高效获取无水印内容
  • Java 8到Java 17:Stream的toMap和groupingBy分组性能对比与最佳实践选择
  • BaiduPanFilesTransfers:百度网盘批量转存工具的5倍效率提升方案
  • RHCE备考第一步:用CentOS 7/RHEL 8搞懂Linux运行级别与systemctl
  • 3DS游戏格式转换实战指南:5分钟实现CCI到CIA智能转换
  • Snapchat向全民开放AI聊天机器人:社交平台AI化背后的技术架构与应用场景
  • 一小时构建专属RAG系统:基于ChromaDB与Llama 3.1的本地化实践
  • 如何下载视频号的视频到手机相册2026全机型通用操作与工具解析 - 科技热点发布
  • 音乐解放者:3分钟让网易云NCM文件重获新生
  • 技术重塑车险:UBI、AI与区块链如何驱动行业变革
  • AI时代职业重塑:从工业革命到智能革命的就业转型与应对策略
  • 别再手动干活了!OpenClaw + 微信,AI 帮你搞定电脑操作
  • 手把手教你用老毛桃PE修复引导分区,搞定全盘格式化后的系统重装