大模型进化论:从聊天机器人到AI智能体,下一代智能的终极形态是什么?
文章探讨了AI应用形态的快速迭代,从传统聊天机器人到基于大模型驱动的聊天机器人,再到结合检索增强技术(RAG)的机器人,最终演变为具备自主性、工具使用和规划能力的AI智能体。智能体通过感知、推理、行动等核心组件与环境交互,实现复杂任务处理。文章强调智能体在解决非预设流程问题上的优势,并展望了其在各领域的广泛应用及未来潜力。
从大模型到AI智能体
大模型应用形态的变化,可以说是目前应用中迭代最快的一个领域。每隔一段时间,我们都能听到关于大模型的新内容。
从传统的聊天机器人到基于大模型驱动的聊天机器人
聊天机器人对我们来说并不是新鲜东西,在生成式人工智能出现之前,我们可能在网站上与聊天机器人打过交道,像小米的小爱智能音响设备。但是在生成式人工智能出现之后,传统的聊天机器人与现在基于AI驱动会话代理有着本质区别。
- 基于启发式的响应:传统机器人基于规则逻辑(if-then语句)运行,受到预设规则限制,无法处理复杂和模糊查询。
- 预设定好了回复:回复的内容是静态的并且是提前预定好的,通过检查特定的关键词或短语触发,缺少灵活性和对话深度。
- 人工介入:针对无法解决的查询,需要设置“联系人工”按钮,人工干预对于处理复杂问题至关重要。
基于大模型驱动的聊天机器人
- ChatGPT发布:2022年11月30日,OpenAI推出了由GPT-3.5驱动的ChatGPT,这是全世界第一款大语言模型应用。ChatGPT保留了我们熟悉的聊天机器人页面,但是背后对话的内容是基于大语言模型技术,该技术对互联网上海量的语料库进行了训练学习。
- Transformer架构:GPT(生成式预训练 Transformer)基于谷歌在 2017 年提出的Transformer架构,利用注意力机制来分析输入序列,从而能够更深入理解上下文。
- 大语言模型能力:与传统的聊天机器人不同,大语言模型能够生成人类可理解、关联上下文且具有原创性的文本,主要应用场景包含代码生成、内容创作、客服等领域。
- 局限性:
- 个性化:大模型在长对话中很难坚持具有一致性且个性化的互动。
- 幻觉:可能会产生事实错误但逻辑通顺的回答,究其原因输出是基于概率而非经过验证的知识。
- 针对局限性解决方法:
- 利用检索增强技术(RAG):利用索增强生成等技术,通过可靠的外部数据来约束输出。
- 通过大模型技术迭代:不断地优化大模型,减少生成幻觉几率。
从大语言驱动的聊天机器人到RAG机器人、AI智能体
RAG聊天机器人:通过检索增强生成(RAG)外部数据检索与大语言模型的能力相结合,从而产生准确且有据可依的回答。
知识来源两个方面:
- 原生知识:从外部渠道(如互联网或私域数据库)检索到的实时数据。
- 大模型内置知识:模型在训练过程中固化在LLM内部的知识。
带来的优势有:一是减少幻觉,二是提供信息及时,三是确保回答内容可追溯、可验证。
提示器工程:通过上下文学习(单样本 one-shot、少样本 few-shot)、思维链(CoT)以及 ReAct 等技术,引导大语言模型的推理和输出生成,从而提升回复质量。
AI智能体:智能体由大模型演进而来,通过工具调用、多步规划和推理能力方面进行了增强。
工具使用:大模型通过分析任务,根据结构化模式分配参数,进而能够调用程序预定义的函数和API接口。
环境:智能体在具有迭代执行的环境中运行,能够根据反馈进行动态决策、持续调整。
智能体系统:是一个包含自主智能体的计算架构,这些智能体能够集成多个系统组件,做出决策并达成目标。
代理RAG: 结合大语言模型的推理、工具使用以及规划能力,并与语义信息检索技术结合,创建的能够分解任务、执行复杂操作,利用各种工具解决问题的动态系统。
什么是AI智能体
AI智能体是一个能够通过"传感器"感知环境、处理信息,利用执行器对环境做出响应以完成特定目标的系统。我们可以把他想象成一个数字实体,它能够观察、思考然后采取行动,就像我们与周围环境进行互动一样,只不过它是以一种程序化且具有目的的方式来完成的。
AI智能体核心是寻找最优解的能力,智能体会采取那些能够达成既定目标成功率最高的操作,这将AI智能体与简单的响应式程序区别开。
AI智能体的特征
- 自主性:无需人工干预的情况下运行,并能独立做出决策
- 主动性和反应性:主动性可以理解为未雨绸缪,反应性可以理解为见招拆招,AI智能体既能针对环境变化做出反应,也能为了达成目标主动采取措施
- 适应性:能够通过处理新信息,不断学习进化
- 目标导向:努力实现设定的目标
- 交互性:能够与其他智能体或人进行沟通与协作
- 持续性:持续运行,对动态环境进行实时监控并做出响应
AI智能体核心组件
AI智能体核心组件主要有:感知、推理、行动、知识库、学习和通信接口
感知
通过组件使得智能体能够感知环境,例如摄像头、麦克风物理传感器,也可以是用户交互这些数据输入。
推理
相当于智能体的大脑,处理来自传感器的数据并进行合适的动作,该组件负责实现智能体的决策算法,维护所有必要的内部状态。
AI智能体使用多种决策机制(基于规则的系统,专家系统,神经网络)来做出明智的选择并有效地执行任务。
行动
智能体的行动可以是物理层面的,像操控机械臂、扬声器,也可以是数字层面的显示输出。
知识库
用于智能体决策的信息库,包含预先编写的知识,也可以通过学习获取。
学习
智能体从数据和经验中学习,随着时间推移不断提升性能。利用强化学习、监督学习和无监督学习等技术,实现自我持续改进。
通信接口
允许智能体与其他智能体、系统或人进行交互。
AI智能体怎么与周围环境交互
智能体与周围交互过程是一个循环过程,整个过程可以概括为 感知->规划->执行,或者感知->行动,下面以无人驾驶汽车为例进行说明:
感知阶段
传感器接收信息,获取外部数据,然后经过处理,最后更新系统状态。
决策阶段
根据当前状态+目标 -> 评估可以采取的动作 -> 选择最优动作
- 评估可以采集的动作:对所有可能得行动方案进行评估
- 权衡目标与约束:综合考虑既定的目标以及当前的环境中的各项约束条件
- 选择最优动作:基于当前的信息,选择能够最可能达成目标的动作
执行阶段
执行动作 -> 观察变化 -> 开始新一轮循环
- 通过执行器执行动作:通过执行器运行选择的动作
- 观察变化:执行动作后会导致外部或内部环境状态产生改变
- 感知结果并开启新循环:观察行动结果,进入下一轮感知与决策
上述感知、决策、执行循环会重复运行很多次,通常每秒中就会执行很多轮。这种循环之所以功能强大的原因在于:
- 自适应性:如果在执行的过程中遇到异常,在下一个感知阶段会检查到,会做出相应调整
- 学习能力:智能体会将当前的预测结果与实际结果进行对比,从而优化未来决策
- 目标导向行为:每一次循环中在遵循约束条件的同时,不断朝着目标前进
下面以温度调节程序为例用代码进行说明:
- 简单程序: 按照固定规则,不考虑其他因素,没有学习和适用能力
# Simple programif temperature > desired_temperature: turn_on_cooling()- 带有响应式程序:相比简单程序,带有复杂的规则,具有一定的上下文感知能力,但不具有真正的智能
# Responsive programif temperature > desired_temperature: if time_of_day == "peak_hours": turn_on_cooling_eco_mode() else: turn_on_cooling_normal()- AI智能体:具有综合考虑能力,兼顾温度、电费价格、天气以及个人偏好等多个维度,预测未来情况,能够推算如果现在提前降温,是否能够避开一个小时后的高电费价格,通过实际效果不断优化决策算法,在省钱和舒适度两个冲突的目标之间寻找平衡。
class SmartThermostat: def perceive(self): current_temp = get_temperature() // 当前温度 time = get_time() // 时间 electricity_price = get_current_price() // 当前电费价格 weather_forecast = get_forecast() // 天气预报 user_preferences = get_preferences() // 用户偏好 return Environment(current_temp, time, electricity_price, weather_forecast, user_preferences) def think(self, environment): possible_actions = [ NoAction(), CoolNormal(), CoolEco(), PreCool(), WaitForOffPeak() ] # Evaluate each action's expected outcome best_action = None best_utility = float('-inf') for action in possible_actions: predicted_state = predict_future_state(environment, action) utility = calculate_utility(predicted_state) if utility > best_utility: best_action = action best_utility = utility return best_action def act(self, action): action.execute() monitor_results() update_learning_model()这种“感知->决策->执行”循环适用于所有AI智能体,像聊天机器人,感知文本输入->决定最合适的答复->执行生产文本的操作;交易机器人,感知市场数据->制定交易策略->执行下单操作;扫地机器人,感知房间布局和灰尘->规划清扫路径->执行移动和吸尘动作。
AI智能体是怎么工作的?
想象有这样一台智能冰箱,在牛奶喝完时自动下单买新的,还会根据你的浏览偏好建议改喝某种牛奶。
是贴心还是有点令人不安,这取决于你的看法。但这正是AI智能体的核心所在。
AI智能体能够理解人类语言(归功于大语言模型),对信息进行推理,规划行动并执行任务,不用人工干预。能够解决复杂问题,比简单的自动化工具强悍很多。与脚本程序不同,AI智能体集成了软件系统,能够与环境进行复杂的交互。
AI智能体与简单的自动化有两大核心能力存在差异:工具使用(tools)和规划(planning)。
- 工具使用:你可能遇到过ChatGPT在数学题目上算错过,这是因为它仅根据训练数据生回答。如果让你计算85*65,你可能采用计算器工具。如果给AI开放工具权限,让它能够调用外部计算、搜索API。
- 规划与推理:还是用数学题举例,只有当我们掌握乘法规则,知道如何把85,65以及乘法指令传递给计算器时,才能得到正确的答案。这就是规划与推理的意义:决定做什么以及怎么做。
下图是向AI智能体发起查询时处理流程
编排层(控制中心)
假如我要创建一个会议安排智能体,当我下发指令“我想为我的所有学生举办一场网络研讨会”,在编排层通常涉及如下逻辑:
- 意图识别:AI智能体会识别我的核心述求是安排会议,对象是所有学生,形式是网络研讨会
- 关联上下文:它会开始检索相关信息,比如我的学生名单在哪里,我经常使用的会议室是哪个等等
- 启动任务:将我发出的指令这种模糊的需求转为一系列可以具体操作的指令
编排层处理的查询可以是文本、语音、视频或图像。无论是何种数据类型,最终都会被转换为机器可以识别的数值/向量。
编排层主要负责下面四大核心工作:
- 记忆(Memory):维护我们与智能体之间的整个交互过程
- 状态(State):存储当前处理流程的实时状态
- 推理(Reasoning):推动智能体逻辑思考与推断
- 规划(Planning):指定任务步骤,决定下一步做什么
模型(大脑)
模型是整个智能体的核心决策者,通常都是大语言模型来承担。在编排中,模型扮演大脑角色,负责接收来自记忆、状态和环境信息,经过推理后,决定接下来的具体动作。
为了理解查询请求,指定计划并确定下一步行动,模型会使用下面的推理流程:
- ReAct: 结合推理与行动,确保智能体的每一个动作都经过深思熟虑,并且有据可依
- 思维链: 通过展示中间推理步骤,理清逻辑思路
- 思维树:探索多条可能得路径,从中选择最佳的解决方案
模型最终决定采取哪些动作,然后调用特定工具来执行这些动作。
工具(手)
通过工具,智能体与外部世界进行交互,这些工具包括但不限于计算器、API接口、网页搜索和外部数据库等。通过这些工具弥补大模型本身的局限性,使得智能体能够执行超出模型本身能力范围的操作、获取实时信息,完成现实世界中的任务。
什么时候使用智能体,什么时候应该不用?
当我们的应用程序需要由大语言模型来决定工作流时,AI智能体非常有用。但很多时候,我们可以不用智能体,否则像杀鸡用牛刀。
在使用判断是否需要智能体之前,先问自己一个问题:为了高效解决当前认为,真的需要工作流具备灵活性吗?
如果通过预设的工作流已经完全满足,例如开发一个冲浪网站的客服应用,用户的请求基本分为两类:
一类人员是想了解旅行信息,开发一个搜索框,让它们自己搜索 另一类是要联系销售人员,开发一个表单让它们填写
如果是像上面这样,确定的流程能满足用户需求,那直接开发程序无需用智能体。因为这样编程实现的程序100%可靠,避免了引入大模型带来的出错风险。为了系统的简洁性和鲁棒性,尽量不用智能体。
如果工作流无法预先确定,用户问下面的这种问题
"我原本打算周一来冲浪,但忘了带护照,可能需要推迟到下周三,我想问下,在周二早上装备能带过去冲浪吗,另外如果取消有费用吗”
像上述这种问题,涉及了太多的变数,预设的逻辑很难完全覆盖到用户的要求。这种情况下,处理程序需要很大灵活性,这正是智能体发挥作用的地方。
我们可以构建一个多步执行的智能体,并提供它访问下面的工具的权限:
- 天气API: 查询天气预报
- Google Maps API:计算行程距离
- 员工排班表:查询教练是否上班
- RAG系统:从知识库查询保险政策
截止到目前,计算机还局限于处理预设的工作流,通过堆积if/else分支处理复杂的任务,但现实生活中的任务很多无法用预设分支满足,采用AI智能体为程序打开了通往真实世界复杂任务的大门。
应用领域
AI智能体能够广泛的应用在各个领域,提升生产力、效率和智能化水平,特别是日常应用程序以及具有高影响力的尖端领域。
总结
本文先描述了什么是AI智能体,然后详细介绍了它包含哪些核心组件,最后概述典型的应用。
AI智能体正在改变我们与技术之间的互动方式,提供了空前的自主性、智能水平和适应能力。从简单的对话交流到复杂的学习系统,智能体被用于各行各业,解决复杂问题,像编程领域。然而,构建高效的智能体也面临挑战,例如伦理道德、数据依赖性以及可扩展性问题。
随着AI技术的不断发展,AI智能体的未来拥有巨大潜力。通过通用人工智能(AGI)技术、人机协作与伦理规范,我们不仅能够高效执行任务,还能创建符合人类价值观并且对社会做出贡献的系统。
掌握AI知识,密切关注发展,利用AI智能体的力量驱动创新,创造更加美好的未来。
最后唠两句
为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选
很简单,这些岗位缺人且高薪
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
那0基础普通人如何学习大模型 ?
深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
- ✅从入门到精通的全套视频教程
- ✅AI大模型学习路线图(0基础到项目实战仅需90天)
- ✅大模型书籍与技术文档PDF
- ✅各大厂大模型面试题目详解
- ✅640套AI大模型报告合集
- ✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤640套AI大模型报告合集
⑥大模型入门实战训练
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
