当前位置: 首页 > news >正文

演进之路——从Toolformer到Agent生态

演进之路——从Toolformer到Agent生态

引言:一个概念的诞生与爆发

Skills(或Tool Use)并非凭空出现。它是AI研究者多年来追求"让模型能行动"这一梦想的结晶。从学术界的小规模实验,到工业界的标准功能,再到如今千千万万Agent的基石,这条路走了不到两年,却经历了惊人的演进。

本章将带你追溯这段历史,理解今天的位置,并展望明天的方向。

一、学术先声:Toolformer与ReAct(2022-2023)

Toolformer:让模型学会"调用API"

2023年2月,Meta AI发布了一篇影响深远的论文——《Toolformer: Language Models Can Teach Themselves to Use Tools》。

Toolformer的核心思想是:让模型自己生成训练数据。具体来说:

  1. 给模型一些API(如计算器、搜索引擎)
  2. 让模型尝试在文本中插入API调用(例如在"23 * 47 =“后面插入”[Calculator(23, 47)] -> 1081")
  3. 过滤掉那些调用后能降低损失(loss)的例子
  4. 用这些数据微调模型

结果:微调后的模型学会了在需要时自动调用工具,比如遇到数学问题时调用计算器,遇到新信息时调用搜索引擎。

Toolformer的贡献在于证明了模型可以通过自监督方式学会工具使用,不再需要大量人工标注。

ReAct:思考与行动的融合

几乎同一时间,另一个重要概念ReAct(Reason + Act)由普林斯顿大学和Google的研究者提出。

ReAct的洞见是:推理轨迹(Reasoning)和行动(Action)应该交织在一起,而不是分开的。

传统的"思考再行动"模式(Think-then-Act)是线性的:模型先想好所有步骤,然后执行。ReAct则是循环的:思考一步,行动一步,观察结果,再思考下一步。

例如:

  • 思考:我需要查一下北京天气,才能回答用户
  • 行动:调用search("北京天气")
  • 观察:返回"晴,22度"
  • 思考:天气很好,适合户外活动,可以推荐公园
  • 回答:…

ReAct模式显著提升了模型在多步任务中的表现,成为后来大多数Agent框架的底层逻辑。

二、里程碑:OpenAI Function Calling(2023年6月)

2023年6月13日,OpenAI在更新GPT-4和GPT-3.5时,发布了一个改变游戏规则的功能——Function Calling

这不是学术论文,而是产品化的工具调用能力。开发者只需以JSON格式描述函数,模型就能智能地输出调用指令。

为什么这是里程碑?

  1. 结构化输出:模型不再需要生成难以解析的文本格式,而是输出标准JSON,开发者可以直接使用。
  2. 可靠性大幅提升:经过专门微调的模型,在工具调用任务上表现远超通用模型。
  3. 生态引爆:Function Calling发布后,无数开发者开始构建Agent应用。LangChain、AutoGen等框架迅速集成,各类插件市场如雨后春笋。

可以说,Function Calling让"Agent应用开发"从极客玩具变成了工程师可以系统化构建的系统。

三、生态爆发:2023下半年-2024

Function Calling之后,工具调用的概念迅速扩散和演化:

各大模型厂商跟进

  • Anthropic Claude:推出Tool Use功能,支持多工具调用
  • Google Gemini:原生支持Function Calling
  • 开源模型:Qwen、Llama 3等模型通过微调也获得了工具调用能力
  • 国内厂商:字节Coze、百度千帆、智谱AI等纷纷推出自己的Agent平台和工具调用方案

框架层的抽象

工具调用的底层逻辑被抽象进各种开发框架:

  • LangChain:提供了Tool抽象,可以轻松将任意Python函数包装成模型可调用的工具
  • AutoGen:支持多Agent协作,每个Agent可以拥有自己的工具集
  • CrewAI:专注于角色扮演和任务分配,工具是每个角色的"能力"

专用格式的出现

随着发展,一些专用的工具描述格式开始出现:

  • OpenAPI规范:可以直接将REST API转换为模型可理解的工具
  • MCP (Model Context Protocol):Anthropic推出的开放标准,让模型可以动态发现和使用工具

四、从单工具到多Agent协作

工具调用的演进,也推动了Agent架构的变革:

阶段1:单Agent单工具

最早期的应用:一个Agent配一个计算器,只能处理数学问题。

阶段2:单Agent多工具

Agent拥有天气、日历、邮件等多个工具,可以根据任务自主选择。

阶段3:多Agent协作

每个Agent有自己的专长(和对应的工具集),通过协作完成复杂任务。例如:

  • Planner Agent:负责拆解任务
  • Researcher Agent:拥有搜索工具,负责收集信息
  • Writer Agent:拥有文档处理工具,负责生成报告
  • Executor Agent:拥有API调用工具,负责执行操作

五、未来展望:Skills将走向何方?

站在今天,展望Skills的未来,有几个值得关注的方向:

1. 动态工具发现

未来的Agent可能不需要预先配置所有工具。模型可以通过某种协议(如MCP)动态发现可用的工具,就像手机可以随时安装新App。

2. 工具的组合创新

就像人类可以用锤子和凿子组合出新的使用方法,未来的Agent可能学会组合现有工具创造新功能——今天调用搜索和邮件,明天可能组合出"自动监控特定信息并发送报告"的新工具。

3. 跨应用工作流

想象一个Agent可以在Excel、Slack、Notion之间自如穿梭,像人一样操作多个软件完成复杂任务。这需要工具调用从API层面走向GUI自动化层面。

4. 自我进化的工具

Agent不仅使用工具,还可能自己编写新工具。遇到重复性任务时,Agent可以写一个Python脚本,下次直接调用这个脚本——这已经接近人类的"工具制造"能力。

结语:Skills,让AI从对话者变为协作者

回顾这段不到两年的演进史,我们见证了一个概念的诞生、爆发和深化。从Toolformer的学术探索,到Function Calling的产品化,再到今天Agent生态的百花齐放,Skills让AI从纯粹的"对话者"进化为真正的"协作者"。

未来,当你与AI助手交谈时,你很可能不会意识到它正在幕后调用几十个工具——就像你今天用智能手机时,不会去想后台运行着多少服务。工具已经融入体验本身,成为AI能力的自然延伸。

而这,正是Skills的终极目标:让思考者能够行动,让对话者能够做事,让AI真正成为人类的得力伙伴

http://www.jsqmd.com/news/470341/

相关文章:

  • Harmonyos应用实例78. 平均数:数据调查活动
  • C4D云渲染干货教程,2026年不废话,专门解决C4D渲染太卡、太慢、渲染崩溃等情况
  • Windows系统安装Miniconda 步骤
  • Harmonyos应用实例79. 条形统计图:动态生成器
  • 马术运动员庞钦宇出席上海APM活动,帅气吸睛全力以赴备战亚运
  • C#/.NET/.NET Core优秀项目和框架年月简报
  • **德系车内部改装方案2026指南,打造个性化豪华座舱体验**
  • 数仓入门篇-维度模型与第三范式
  • 从“表奴”到“表达”:我用Kula AI和Gemini 3.1 Pro搞定月报的那点事儿
  • 开发 PHP 扩展新途径 通过 FrankenPHP 用 Go 语言编写 PHP 扩展
  • 专业人士是如何看待OpenClaw(龙虾)的?
  • 解密prompt系列. Agent实战:从搭建Jupter数据分析智能体
  • Java安装与环境配置
  • 工作常用ai
  • 在鸡哥x上安装Linux:Fedora 上手体验
  • Day3 完整学习包(原型 原型链)——2026 0312
  • Maxwell变压器有限元建模仿真教学指南:涵盖单相、三相、高频、分离及差动变压器等多类型仿真...
  • pwn练习笔记19-20
  • 【图像去噪】量子物理薛定谔方程解的自适应去噪(含 SSIM PSNR MMSE)【含Matlab源码 15147期】
  • 【Azure Container App】Debug Console的调试工具试验(三)--openssl/traceroute/ca-certificates/bind-utils/tcpping
  • Python代码如何加密之后再执行?
  • Adobe Dreamweaver 完整操作步骤(全版本通用)
  • 【VSCode学习02】 Visual Studio Code简介
  • 计算机毕业设计源码:基于Python的商品数据分析与随机森林销量预测系统 Django 可视化 数据分析 机器学习 爬虫 深度学习 大模型 大数据(建议收藏)✅
  • salesforce零基础学习(一百四十四)External Client App浅谈
  • mac电脑查看安装的mysql版本以及启动
  • 算法设计中的抽象数据类型与泛型思维的技术6
  • 第三方应用程序漏洞
  • 免费用上AI翻译!简约翻译 + Cerebras大模型,网页翻译从此告别机器腔— 全程零费用,5分钟搞定 —
  • CTFshow web入门 web1-10