当前位置: 首页 > news >正文

2025_NIPS_GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction

一、文章主要内容总结

该研究聚焦于让开源大型语言模型(LLMs)高效具备多模态工具使用能力,核心提出了GPT4Tools方法,具体内容如下:

  1. 研究背景:现有先进专有LLMs(如GPT-3.5、GPT-4)虽能通过提示工程使用工具,但存在计算成本高、依赖私有数据的问题;而开源LLMs缺乏工具使用能力,现有相关方法或依赖专有模型、或数据多样性不足。
  2. 核心方案
    • 数据集构建:以GPT-3.5为教师模型,结合图像内容(标题、边界框)和工具描述生成工具相关指令数据集,经过滤后保留4.1万条有效数据,并通过负样本(非工具相关指令)和上下文样本(多轮工具调用链)增强数据复杂度。
    • 模型微调:采用低秩适配(LoRA)技术,在冻结开源LLMs(Vicuna、LLaMA、OPT)主模型参数的前提下,仅优化Transformer层的秩分解组件,实现高效微调。
    • 评估基准:构建包含23种已知工具的验证集和8种未知工具的测试集,从“是否使用工具(SRₜ)”“使用哪种工具(SRₐₙ)”“工具参数是否正确(SRₐᵣ₉ₛ)”“整体执行成功率(SR)”四个维度评估模型性能。
  3. 实验结果
    • 微调后开源模型工具使用能力显著提升:Vicuna-13B的整体成功率(SR)从12.4%提升至94.1%,OPT-13B从0提升至93.2%。
    • 具备未知工具零样本使用能力:微调后的Vicuna-13B在未知工具
http://www.jsqmd.com/news/952959/

相关文章:

  • 书匠策AI:论文写作界的“超级魔法师”,解锁期刊论文新技能!
  • HarmonyOS 6 Popup 气泡弹窗组件使用文档
  • 智能结对编程:如何利用快马AI辅助优化ayx·爱游戏网页弹球项目的代码与性能
  • SpringBoot+Vue服装销售管理系统源码+论文
  • 2026年知名的光伏支架实力工厂推荐 - 行业平台推荐
  • 2026年口碑好的厂区移动雨棚/阳光棚/推拉篷/手动推拉篷优质公司推荐 - 品牌宣传支持者
  • 高效HEIC缩略图方案:Windows HEIC Thumbnail Provider技术解析
  • IM-PINN:基于内禀度量的物理信息神经网络在反应扩散系统中的应用
  • 在LVM上安装Gbase 8S
  • 除了verify=False,安全处理requests库SSL证书验证的3种更优实践(附避坑指南)
  • SQL内核修炼:ICU 医疗监护 — 多设备“危险重叠期”识别 | 详解扫描线算法
  • HarmonyOS 6 AtomicServiceTabs 纯图标样式使用文档
  • 数据科学家不是建模工程师:一份真实工作流的生存手记
  • XUnity.AutoTranslator架构深度解析:Unity游戏实时翻译引擎的技术实现
  • 基于微信小程序的复习计划管理系统源码+论文
  • 亲测能降到0%!免费降AI率靠谱吗?10款工具实测,论文降AIGC必看 - agihub
  • 数据科学中的推断统计实战:从AB测试到置信区间
  • 从外卖配送区到共享单车电子围栏:JTS实战解析空间关系判断(Contains/Within/Intersects)
  • 别再手动算CRC了!用STM32CubeMX的硬件CRC模块,5分钟搞定数据校验
  • HarmonyOS 6 AtomicServiceTabs 图标加文本(自定义图文排布)使用文档
  • SpringBoot+Vue高校机动车认证信息管理系统源码+论文
  • 免费降重工具精选:AI智能改写高效降低重复率 - 仙仙学姐测评
  • Python map、filter、zip 三大函数式核心用法与工程实践
  • 别再踩坑了!手把手教你用Selenium驱动360极速浏览器(附版本匹配避坑指南)
  • 企业级AI分类系统上线倒计时72小时:紧急补漏清单(含权限穿透、语义漂移、冷启动三重熔断机制)
  • 社区搜索技术:从同质图到异质图的算法演进
  • SpringBoot+Vue高校教室设备故障报修信息管理系统源码+论文
  • 2026年评价高的光伏支架主流厂家对比评测 - 品牌宣传支持者
  • 2026年口碑好的舟山工业园区/定海工业园区/浙江工业园区热门排行榜 - 行业平台推荐
  • 从数电实验箱到FPGA开发板:重温74LS138三八译码器,并用它搭建全加器电路