当前位置：首页 > news >正文

从模型竞赛到生态构建：2026年新综述揭秘智能体发展新范式！

news 2026/5/13 17:29:54

传统观点认为智能体（Agent）的进步主要源于模型能力的提升。然而，一篇名为《Externalization in LLM Agents》的2026年综述指出，现代智能体的成功越来越依赖于外部认知基础设施的建设。该综述提出了“Externalization”框架，强调将模型的认知负担转移到可持久、可检查、可复用和可治理的外部结构中。文章分析了记忆（Memory）、技能（Skills）、协议（Protocols）和运行环境（Harness）四个关键要素，指出智能体的发展重心已从单纯追求模型参数规模转向构建完善的运行时环境，这一转变将极大影响智能体未来竞争力。

为什么今天做 Agent，越来越不像“换一个更强的模型”，反而越来越像在搭一整套运行环境？这篇 2026 年的新综述，给了一个很有解释力的答案。

论文：Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

过去我们常把 Agent 的进步理解成一件很简单的事：模型更强了，所以 Agent 更强了。但如果你这两年真的做过 Agent，就会发现事情没那么简单。

很多决定 Agent 体验的关键问题，其实都不是“模型会不会推理”，而是：它记不记得上次做到哪一步、会不会稳定执行流程、能不能安全地调工具、出了错能不能被及时发现和纠偏。

这篇综述最有价值的地方，就在于它把这些看似零散的问题，统一放进了一个框架里：Externalization。

所谓 externalization，简单说就是：
把原本压在模型内部的认知负担，系统性地外移到可持久、可检查、可复用、可治理的外部结构中。

一、这篇论文到底想说明什么？

作者借用了 Donald Norman 关于cognitive artifact的经典观点：工具的价值，不只是“增强能力”，更重要的是改变任务本身。

比如购物清单并没有提升人的生物记忆容量，它只是把“回忆”这个困难任务，改造成了“识别”这个更容易完成的任务。地图也不是让人突然变得更会导航，而是把原本隐含的空间关系变成了外部可见结构。

作者认为，今天的 LLM Agent 其实也在经历同样的事情。它们越来越强，不只是因为模型参数更大了，而是因为越来越多的认知负担，被重新分配到了模型之外。

原论文图示：社区主题的中心逐渐从 Weights 移向 Context，再进一步移向 Harness。

二、为什么说 Agent 正在从“模型”走向“基础设施”？

作者把 Agent 社区近几年的演化概括成三层：

•Weights：早期大家默认“能力主要在模型参数里”。
•Context：后来大家开始做 prompt、CoT、ReAct、RAG，把能力部分外移到输入设计。
•Harness：再往后，研究重心开始转向运行时环境，包括 memory、skills、protocols、tool ecosystems、orchestration 等。

这背后的变化很关键。以前我们问的是“模型有多强”，现在越来越多团队问的是：模型周围那层认知基础设施，组织得够不够好？

旧问题

模型够不够聪明？参数够不够大？推理链够不够长？

新问题

状态怎么保存？流程怎么复用？调用怎么约束？行为怎么观测？

三、这篇综述的四个关键词

全文最值得记住的，其实不是它盘点了多少系统，而是它给出了四个关键词，把今天 Agent 的关键设计串了起来：

•Memory：把跨时间状态外移出去。
•Skills：把程序性 expertise 外移出去。
•Protocols：把交互结构外移出去。
•Harness：把前三者组织成一个真正可运行、可治理的环境。

四、Memory：不是“补资料”，而是把连续性从 prompt 里解放出来

很多人一听 memory，会直觉想到“知识库”或者“RAG”。但这篇文章讲得更深。

在作者看来，memory 真正解决的是 Agent 的continuity problem：任务跨会话了怎么办？执行中断了怎么办？用户偏好怎么保留？上次失败经验怎么复用？

Memory 的本质，不是给模型塞更多信息，而是把原本依赖 prompt 暂存的“时间连续性”，变成外部可写、可检索、可更新的状态。

换句话说，它完成的是一种认知转化：把 recall 变成 recognition。模型不再每次都“想起过去”，而是“从外部系统里认出过去”。

五、Skills：真正外移的不是工具，而是流程

很多时候模型不是不知道怎么完成任务，而是每次都要重新生成一遍工作流，于是流程会漂、步骤会漏、默认值会乱。所以作者认为，skill 的本质并不是“多了一个工具接口”，而是把 procedure、heuristic 和 constraint 做成了外部可复用 artifact。

原论文图示：Skills 不只是 function calling，而是一整套从 skill acquisition 到 runtime 的生命周期设计。

一旦流程被外移出来，模型面对的任务就不再是“从头发明工作流”，而是：

• 识别现在该不该用某个 skill；
• 加载到什么粒度为止；
• 如何和当前上下文、工具、子代理绑定；
• 遇到例外时怎样局部适配。

一个很值得记住的判断：
Skill 的价值，不是让 Agent 多会一点，而是让 Agent 少“临场发挥”一点。

六、Protocols：今天很多 Agent 的脆弱，不是因为不会思考，而是因为不会“规范交互”

如果没有协议层，模型虽然知道“这里可能该调个工具、找个子代理、向用户确认一下”，但它还得同时发明消息格式、参数结构、权限语义、错误恢复逻辑。这会让每一次交互都变成一次脆弱的 prompt 猜测。

Protocol 真正外移的，是交互合同。它把自由发挥的 communication，改造成了结构化、机器可读、可治理的 exchange。

七、Harness：它不是外挂，而是 Agent 真正的运行时

很多时候我们会把 harness 理解成“外围工程脚手架”，但作者想表达的是：Harness 不是边角料，它才是让 Memory、Skills、Protocols 真正协同起来的认知环境。

原论文图示：Harness 把 Memory、Skills、Protocols 与 Permission、Control、Observability 组织成运行时闭环。

你可以把 harness 理解成 Agent 的“运行时操作环境”。它至少负责这些事：控制流、权限边界、可观测性，以及错误反馈和审计。

八、这篇论文最值得带走的判断

未来 Agent 的竞争，不只是模型能力竞争，更是外部认知基础设施的竞争。

这也是为什么今天很多 Agent 团队真正拉开差距的地方，不是 base model 换没换，而是：memory 做得够不够稳、skill 能不能沉淀成资产、protocol 是否标准化、harness 是否可控、可观测、可治理。

九、如果你在做 Agent，这篇文章给你的启发是什么？

这篇文章最重要的不是“提供了很多新技术”，而是帮我们换了一个看 Agent 的角度。从这个角度看，很多过去被归类为工程细节的东西，其实恰恰是 Agent 能否从 demo 走向稳定产品的关键。

模型负责什么？
负责灵活推理、局部适配、基于上下文进行判断。

基础设施负责什么？
负责状态持久化、流程复用、交互约束、执行治理。

真正的系统设计问题是什么？
不是把所有能力都塞给模型，而是把能力合理分配到模型与环境之间。

所以，假如你现在还把 Agent 理解成“一个会调工具的大模型”，那这篇综述很值得看。它会提醒你：Agent 的未来，也许不是单点模型越来越强，而是模型与外部认知设施一起进化。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.jsqmd.com/news/810077/