当前位置：首页 > news >正文

AI Agent

news 2026/6/30 13:43:27

LLM——大语言模型

核心基础是Transformer 架构。

能力：根据文本生成提示词，理解上下文语境，能够实现翻译，问答，代码编写和推理。

Transformer

RAG——检索增强生成。

RAG就是讲信息检索和大语言模型生成相结合的技术架构。

解决了LLM本身存在的一些固有局限，如幻觉问题，知识过时（训练数据有时间截止点，无法回答之后发生的新事件），领域知识不足（对企业内部文档、私有数据等缺乏了解）。

把企业的知识库直接在输入框中丢给AI(会有上下文窗口的限制,成本非常高,响应速度很慢)

RAG的本质就是在大模型回答之前,先检索资料,在基于资料生成答案.

RAG核心流程:

数据准备

将知识库切分成多个小块,每一个小块尽量表达一个完整的语义.(不切分整篇文档去做处理会导致语义混乱,检索不准确)

将文本块转化成向量,每个块都会对应一个向量,然会将文本内容和它对应的向量存到向量数据库中

用户提问

会用户的问题给向量化,然后用这个向量分别和数据库中的每个向量去计算相似度(计算相似度的方法有余弦相似度和欧式距离等)返回与其最相近的top-k个块(召回K个块,这一步只是粗筛,只能判断和问题像不像,不能保证这几个块到底有没有回答用户提问的问题),然后我们会在进行rerank(重排序)就是进行进一步的筛选(选择最可以回答用户问题的文本块),最后我们将用户的原始问题和检索到资料一起组成增强后的提示词,发送给LLM,生成答案.

卡点及优化技巧

企业私有文档,有pdf,表格,图片等解析起来非常复杂,数据清洗(会结合一些版面模型,或者一些OCR的识别技术)

切块:太大会导致内容太杂包含很多内容,切的太小会导致语义断裂.

所以切分粒度要刚好,做到每个块尽可能的都语义相对完整

用户的问题可能口语化(需要进行问题重写,主要是补充一些隐含信息)

检索用的最多的是混合检索(关键字检索和向量相似度检索)

Transformer

Transformer 采用经典的编码器-解码器（Encoder-Decoder）结构

Tokenizer负责编码和解码.编码就是将用户问题切分成一个个小片段,这些片段叫做token,每个token对应一个tokenID一对一绑定

Agent

LLM和Workflow和Agent的区别

LLM就是一个大脑

Workflow 是由开发者预先定义好的执行流程（通常是有向无环图 DAG）。步骤、分支、条件判断都是代码写死的，LLM 只是其中某个节点的"处理器"。

Agent = LLM + 规划模块 + 记忆模块 + 工具调用模块 + 循环执行闭环。它能接收一个目标，自主拆解任务、选择工具、执行操作，并根据中间结果动态调整策略，直到任务完成。

Agent能够自己规划工作流,调用工具有自己记忆模块,最重要的是Agent有自主工作的能力(Agent Loop智能体循环)

ReAct

最经典的一个框架是ReAct(推理与行动)

原理核心节点（3 个）

ReasoningNode：推理判断

ActionNode：执行工具调用

ObservationNode：消化结果并回写上下文

工程增强节点（3 个）

SummarizingNode：当上下文越来越长时，对历史对话进行摘要压缩

LimitExceededNode：防止无限循环，超过最大迭代次数时触发兜底逻辑

FinalAnswerNode：统一收口正常路径与兜底路径，输出最终答案

不同团队根据业务需求还可以继续扩展，如增加审批节点（高风险动作需人工确认）、校验节点（验证答案是否满足要求）、错误恢复节点（工具失败时自动重试或换策略）等。

优势

大幅降低幻觉：以工具返回的真实数据为依据，而非依赖模型"记忆"

可解释性强：每一步 Thought 都是透明的推理过程，便于调试和审计

通用性好：只需替换工具集，即可从"多跳问答"切换到"机器人控制"等不同场景

动态适应：遇到错误能自动分析原因并调整策略重试

局限

Token 消耗高：每轮循环都需要调用 LLM，复杂任务可能触发 5-10 次调用

延迟较大：多轮循环导致响应时间较长

依赖工具质量：如果工具返回错误信息，Agent 可能基于错误数据继续推理

复杂推理仍有瓶颈：对于需要深度多步推理的任务，ReAct 的表现不如专门的推理模型（如 o1、o3）

http://www.jsqmd.com/news/1096244/

相关文章：

【安卓Framework学习】Wifi框架学习之状态机流转与消息驱动机制

AI功能类硬件：割草机器人终于知道该往哪走了

3步解锁：用闲置安卓手机打造专业级Linux摄像头方案

Minority Sentinel：多智能体辩论中推翻多数投票的少数正确样本识别框架

2026年GEO生成式引擎优化行业研究报告：AI搜索时代的品牌增长新基建

闪光灯慢同步实战：从前后帘原理到创意车轨人像

如何用HunterPie提升你的《怪物猎人：世界》狩猎体验：新手完整指南

深度把玩百年灵的老哥，建议先放大50倍看看这组包装的公差

OpenAI三连发炸场，360趁乱偷家：2026年AI模型大战的终局信号

整合Nurabot、CoDoctor AI与智慧医院自动化流程，构建下一代智慧医疗新生态

基于机器学习的缺陷预测模型：从代码提交日志到风险预警的完整实现

云顶之弈悬浮助手：当策略游戏遇上开源智慧

Selenium与ChromeDriver环境搭建及自动化测试入门实战

离散时间线性定常系统的李雅普诺夫稳定性判据与实践

WindowsCleaner：高效解决C盘空间危机的完整系统优化方案

【UE】用控件蓝图优化样条线测距交互（实战篇）

WindowsCleaner：彻底告别C盘空间不足的终极解决方案

Truveta LLM：首个EHR原生临床语言模型架构解析

终极Chromium优化浏览器：Thorium让你的上网速度提升30%

计算机毕业设计之基于数据可视化的金融市场趋势分析研究与实现

头歌实践：从BankEmployee到BankTeller的Python类继承与封装实战

ROFL-Player技术解码：英雄联盟回放文件的多版本兼容性处理机制

如何彻底解锁原神60帧限制：3步实现120帧极致流畅体验

如何快速完成GTNH汉化：3分钟让你的格雷科技新视野变中文

UniExtract2：一站式文件提取解决方案，轻松应对500+种格式挑战

HunterPie：怪物猎人世界终极数据监控与游戏覆盖工具完全指南

Vue二维码组件深度解析：qrcode.vue架构设计与性能优化

怎么判断厂商的案例是真实落地还是宣传包装的？2026企业级AI智能体选型避坑指南

淘宝拼多多订单同步 API 落地避坑（多店 ERP 通用，彻底解决漏单 / 重单 / 状态错乱）

【一周安全资讯】国家网信办等三部门联合公布《网络数据安全风险评估办法》；印度塔塔电子遭勒索，苹果、特斯拉超630G数据