当前位置：首页 > news >正文

[智能体-176]：为了支持工具调用和JSON Schema，大模型需要针对性的进行模型的训练吗？

news 2026/7/23 18:37:41

结论：基础预训练不自带工具调用 / JSON Schema 能力；商用模型（如 GPT-4o）是做过专项训练；开源模型可通过微调补上；推理时还可配合约束解码强保格式。

下面分训练、推理、工程落地三部分讲清楚。

一、预训练：不会天然支持

普通预训练（Next Token Prediction）只学文本续写，不懂工具调用协议，也不懂 JSON Schema 规范。

见过 JSON 文本，但没学过 “按 Schema 生成”“用指定格式发起函数调用”
没学会 “何时调用工具、选哪个工具、怎么填参数”
直接用：会说 “我需要查天气 API”，而不是输出合法tool_callsJSON

二、商用模型（OpenAI）：必须专项训练

GPT-3.5/4/4o 的Tools+JSON Schema 能力是训出来的，分三步：

1. 监督微调 SFT（教格式）

数据：大量对话 + 工具定义 + 标准 tool_call JSON + 工具结果 + 最终回答的完整样本
目标：学会
- 看懂tools里的函数名、描述、参数 Schema
- 输出严格符合 JSON Schema的tool_calls（含 id、name、arguments）
- 多轮、并行调用格式正确

2. RLHF/RLVR（教决策）

解决 SFT 后的 “滥用工具” 问题（如 1+1 也调计算器）
奖励信号：
- 格式正确（JSON 合法、Schema 匹配）
- 决策正确（该调用才调用，选对工具）
- 结果有用（工具返回后能生成正确回答）

3. 结构化输出专项（strict: true）

针对强 Schema 约束（如嵌套对象、enum、必填字段）做额外训练
目标：开启strict: true后100% 符合 Schema，无幻觉字段、类型错误、缺失必填项

三、开源模型：可训可不训（两条路）

1. 不训练：纯推理约束（弱到中）

提示工程：System Prompt 写死工具格式 + Schema + 示例
后处理：正则 / JSON 校验，错了重试
约束解码（部分框架支持）：生成时按 Schema 做 FSM 状态机，只允许合法 token
缺点：复杂 Schema / 多轮调用易崩，稳定性差

2. 轻量微调（推荐，强）

用1 万～5 万条工具调用样本做 LoRA 微调（成本低，单卡几小时）
数据：合成或开源工具调用数据集（如 ShareGPT-FuncCall）
效果：接近 GPT-3.5 的工具调用 + JSON Schema 遵循能力

四、推理时的 “双保险”

即使训过，生产环境仍要加：

服务端约束解码（OpenAI/Anthropic/ 部分开源框架）：strict: true时，生成阶段强制按 Schema 走，不合法 token 直接屏蔽，100% 合法
客户端校验：拿到arguments后用 JSON Schema 校验，失败则重试或告警

五、一句话总结

无训练：只能靠提示 + 后处理，复杂场景不稳
商用模型：SFT+RLHF + 结构化专项训练，开箱即用强能力
开源模型：LoRA 微调性价比最高；推理配合约束解码更稳

http://www.jsqmd.com/news/922278/

相关文章：

如何免费解锁Wand专业版：3步轻松获取完整游戏修改体验

保姆级教程：在瑞萨RH850/P1x-C上，手把手教你配置HSM与主核的共享内存与中断通信

Parsec VDD命令行操作指南：高效管理虚拟显示器

告别卡顿！在VMware Workstation 17上给Ubuntu 22.04分配4G内存和双核CPU的保姆级配置指南

终极暗黑3技能连点器指南：如何一键解放双手提升游戏效率

18款开发者效率工具全景解析：从编码到部署的实战利器

从《原神》到独立游戏：拆解Unity Quality设置如何影响玩家的第一眼印象

保姆级教程：在CentOS 7上用StarRocks 3.0.9搭建实时数仓，搞定Hive数据同步

物联网开发者调查报告解读：MQTT、边缘计算与JSON的技术选型指南

别再为宝塔通知发愁了！手把手教你用Ubuntu 22.04 + Postfix搭建专属SMTP发信服务

DePIN与以太坊融合：构建去中心化物理基础设施网络的技术架构与实践

CAPL lookup函数避坑大全：从SOME/IP服务信号到FlexRay PDU，这些细节你注意了吗？

彻底解决PCL2启动器Mod注入失败问题：从现象诊断到完美修复

嵌入式开发避坑指南：手把手教你选型与驱动W25Q16/W25Q64 SPI Flash（附GD25Q128对比）

如何让Zotero自动下载学术论文PDF：终极Sci-Hub插件配置指南

从有线到无线：实测Type-C和蓝牙Console线连接华为交换机，哪种更适合你？

老笔记本焕新颜：ThinkPad X270加装M.2 SSD后，如何不重装系统完美克隆Win10并解决启动问题

抖音批量下载工具深度解析：如何高效获取无水印内容

Java 8到Java 17：Stream的toMap和groupingBy分组性能对比与最佳实践选择

BaiduPanFilesTransfers：百度网盘批量转存工具的5倍效率提升方案

RHCE备考第一步：用CentOS 7/RHEL 8搞懂Linux运行级别与systemctl

3DS游戏格式转换实战指南：5分钟实现CCI到CIA智能转换

Snapchat向全民开放AI聊天机器人：社交平台AI化背后的技术架构与应用场景

一小时构建专属RAG系统：基于ChromaDB与Llama 3.1的本地化实践

如何下载视频号的视频到手机相册2026全机型通用操作与工具解析 - 科技热点发布

音乐解放者：3分钟让网易云NCM文件重获新生

技术重塑车险：UBI、AI与区块链如何驱动行业变革

AI时代职业重塑：从工业革命到智能革命的就业转型与应对策略

别再手动干活了！OpenClaw + 微信，AI 帮你搞定电脑操作

手把手教你用老毛桃PE修复引导分区，搞定全盘格式化后的系统重装