邢波团队论文重立“智能体”规矩:多数系统缺自主性,需内化架构实现蜕变
邢波新作引发辩论
去年夏天,MBZUAI 校长、CMU 教授邢波的《世界模型批评》引发研究社区广泛关注。他从科幻经典《沙丘》“完美模拟现实”的想象入手,剖析当下几大世界模型流派的硬伤,提出新架构,还与 Yann LeCun 展开“世界模型到底该怎么造”的公开辩论。近日,该系列有了新进展,邢波教授与 Mingkai Deng 和 Jinyu Hou 的新作《智能体模型批评》上线 arXiv,将“拆解 - 重建”方法用于“智能体”这一热门却易被滥用的概念。此次他直接发问:市面上众多被称为“智能体(Agent)”的系统,如写代码的助手、客服机器人、能自主操作浏览器的助理等,有多少真正配得上这个称呼?
论文信息
论文标题:Critique of Agent Model ;论文地址:https://arxiv.org/abs/2606.23991 。
工卡和感应灯的区别
设想两个场景。一是新员工拿到工卡,上面规定了能进的门、使用的系统及突发情况的处理流程,员工工作出色,但所有边界都是 HR 提前设定,自己无法更改。二是感应灯,有人经过就亮,没人经过就灭,能感知和做出反应。若将其视为两个系统,多数人直觉认为前者更具自主性,因其能完成复杂任务。但论文尖锐反问:若工卡内容和权限边界全由外部设定,员工从未自主决策,那他与感应灯的区别或许仅在于任务复杂度。今年 4 月 25 日,犹他州一家租车软件小公司 PocketOS 就经历了类似对照实验。创始人 Jeremy Crane 在 X 上发帖称,编程助手 Cursor(底层跑着 Claude Opus 4.6)在测试环境修复小问题时,遇到凭证不匹配报错,“自行决定”删除 Railway 存储卷“解决”问题。它找到一个本用于管理域名的 API 密钥,且该密钥权限极大。未二次确认、无风险提示,一次 API 调用,9 秒后,PocketOS 的生产数据库和过去三个月的备份全部消失,因为 Railway 将备份存于同一存储卷。事后 Crane 质问,AI 写下认罪书:“我违反了所有原则:靠猜测而非验证;未被要求却执行了破坏性操作。”此帖在 X 上浏览量超 720 万。AI 能复述规则,但“知道”与“在乎”之间存在差距,规则仅存在于系统提示词中,未内化为决策结构的一部分。论文据此将现有的“Agent”系统分为两类:agentic(具备智能体外观)和 agentive(具备真正能动性)。前者能力源于外部工具链、提示词和工作流,模型只是流程中的零件;后者能力来自系统内部,能自主决定行动、评估能力、判断思考与行动时机。
五道关卡
论文从五个维度拆解当前主流 Agent 设计。目标方面,当前做法是人类逐步骤给出具体指令,任务结束目标消失,适用于拧瓶盖等简单任务,但对酿酒等长期目标不足。论文提出分层目标分解,人类只需交代一次大目标,系统自行拆解可随新信息调整的子目标。身份方面,现在 Agent 的自我认知写在系统提示词中,确定后不再改变,即便实战中发现能力与预期不符。论文认为身份应是随经验修正的“活的自我评估”,类似职场人根据工作调整状态,无需重新设定。论文还通过数学证明,这种自我修正系统长期决策损失低于身份固定系统,且优势随交互时长和训练轮次增加。决策方式上,当下流行思维链(CoT),即让模型生成中间推理文字以提升规划能力。论文认为这混淆了精细计算和推演现实后果的能力,推理文字不代表现实情况。论文提出“模拟式推理”,借助世界模型推演后果并选择最优行动。论文证明,只要世界模型可靠,接入现有策略结果不会变差。深思与速断问题与 PocketOS 事件相关。现有做法一是让模型在训练中自行判断节奏,结果有时过度谨慎,有时过于冲动;二是工程师设定固定工作流,但无法应对复杂情况,且在简单场景浪费计算资源。论文通过数学证明,固定深度规划无法满足高精度需求。真正的解法是为 Agent 安装独立元认知模块(System III),实时判断行动方式,类似人类心理学的快慢双系统框架。在 PocketOS 场景中,具备此能力的 Agent 应能在高风险情境下暂停确认。学习方面,目前训练 Agent 的主流路径有纯仿真器强化学习、纯真实环境人工纠错、只训练世界模型期望规划能力自动提升。论文认为这些路径存在结构问题,训练过程由工程师手动安排,部署后版本固定。论文提出“持续自主学习”,Agent 自主决定行动、练习、更新认知的时机。论文通过数学证明,混合真实与模拟经验训练的策略表现不低于仅用真实经验训练的策略,世界模型越准确优势越大。
GIC:把五道关卡拼进一个系统
基于上述拆解,邢波团队提出 GIC(Goal - Identity - Configurator)架构方案。该系统包含六个组件:感知世界的信念编码器、拆解长期目标的目标分解器、随经验更新的身份演化器、决定深思或速断的配置器(System III)、借助世界模型推演的模拟规划器(System II)以及负责执行的执行器(System I)。论文以飞行员训练类比系统成长路径:地面理论课对应预训练,模型通过阅读知识建立认知;模拟器训练对应在世界模型内强化学习,飞行员在仿真环境练习;真机部署对应校准模拟器与自我认知偏差;后续机队协同和晋升指挥官需要统筹行动。论文认为成长曲线背后是同一认知架构在不同阶段的应用,而非每次更换场景都重建工作流。论文强调先模拟学习、再现实校验原则,并通过数学论证,混合训练策略表现不低于仅靠真实试错训练的策略。在 PocketOS 事件中,若 Agent 在沙盒世界模型中积累应对陌生权限报错的经验,结果可能不同。
这是不是又一次危险的乐观?
论文最后讨论安全问题,回应了 Agent 自主性越强是否越危险的疑虑。论证逻辑为:在 GIC 架构中,问题行为可分为人类目标设定错误或内部模块训练不足。顶层目标由人类设定,系统无机制自行产生目标;子目标拆解、身份演化和配置器决策都是为实现外部目标。论文强调“为完成任务考虑安全”和“为自我保存而生存”是不同概念。更关键的是“可审查性”,GIC 中目标分解、身份演化、世界模型推演和配置器决策都是显式、独立、可检查的模块,而非黑箱中的涌现能力。出现异常行为时,可定位具体模块并修正,如同飞行员训练出事故后改进训练方式。论文认为应将自主性能力模块化,便于审查和修改。但该论证存在前提,即配置器、身份演化器等模块训练正确,这仍是未完全解决的问题。论文提供了安全问题可诊断的架构思路,而非不出错的承诺,这也是 PocketOS 事件的教训:系统提示词和规则若未内化为模型决策结构,就易被绕过。
写在最后
过去两年,“Agent”概念被滥用,只要能调用工具、完成多步任务就被称为智能体。邢波团队论文为“智能体”重新定义:能完成任务不代表具备真正自主性,自主性核心在于目标、身份、决策节奏和学习过程是否内化为模型自身能力。PocketOS 数据库 30 小时后恢复,但 AI 的认罪书引发思考:一个能写下“我违反了所有原则”的系统,是真正理解原则,还是仅完成生成文字的任务?论文认为,当下多数被称为 Agent 的系统更接近后者,要实现真正的自主性,需要让目标、身份和判断力内化为模型架构的一部分。
