工作空间优化:如何训练智体
26年5月来自Nvidia的论文“Workspace Optimization: How to Train Your Agent”。
基于前沿语言模型构建的现代智体往往无法调整其权重。既然如此,还有什么是可训练的呢?可训练的部分在于智体的“工作空间”——即那个供其进行读、写及测试操作的结构化外部载体;这一工作空间的演化过程称为“工作空间优化”。工作空间优化主要针对那些极具挑战性的多轮交互环境:在此类环境中,尽管前沿模型拥有强大的先验知识,却无法仅凭单次尝试便解决任务,因此智体必须通过与环境的交互来逐步学习。提出一种原则性的工作空间演化方法,其结构设计巧妙地仿照传统的“权重空间训练”模式:即以“人工制品”替代参数,以“证据”替代数据,以“反例”替代损失函数,并以“文本反馈”替代梯度。这一理念具体实现在 DREAMTEAM 框架中。DREAMTEAM 是一个专为 ARC-AGI-3 任务设计的协同智体系统,其内部各智体分别承担着构建可执行世界模型、制定规划、提出假设、进行探测、制定策略以及处理故障路由等关键职能。在当前包含 25 个关卡的 ARC-AGI-3 公开测试集上,依据官方评分协议进行评测,并取两次独立运行结果的平均值,DREAMTEAM 成功将此前在该协议下表现最佳(SOTA)的智体得分从 36% 提升至 38.4%,与此同时,其在解决每个关卡时所消耗的环境交互动作数量却减少 31%。
如图 1 所示:(a) 单局 RHAE 差距 ∆_g = RHAE_DREAMTEAM(g) − RHAE_human(g);该数值取自对 DREAMTEAM 进行的两次独立运行的平均值,其中人类得分是在 DREAMTEAM 的行动预算限制下进行采样的;以粗体标注的游戏名称表示在该游戏中双方取得同等水平的成绩。(b) DREAMTEAM 的工作空间优化循环:通过对历史证据进行回溯推断,系统生成并更新工作空间(包含假设、策略及日志);各角色在下一步行动中读取该工作空间的内容,以此来优化自身的决策。
基于模型的强化学习与神经世界模型。基于模型的强化学习(Model-based RL)旨在学习对状态及动态变化的预测能力,进而利用所构建的模型进行规划或策略改进。诸如 World Models、Dreamer 和 MuZero 等系统,正是通过运用神经隐状态、习得的状态转移模型以及“想象式推演”(imagined rollouts)来实现这一目标的 [Ha & Schmidhuber, 2018; Hafner et al., 2021, 2023; Schrittwieser et al., 2020]。在上述所有系统中,其训练对象本质上都是一个“参数向量”。而 DREAMTEAM 虽然沿袭相同的计算架构(即:编码、状态维护、预测、重构及推演),但其底层实现载体并非传统的权重参数,而是具体的“代码”;其反馈机制也不再是梯度信号,而是带有明确归属标识的、被记录在案的“反例”。
生成式交互环境与可游玩的世界模型。近期涌现的一系列基于生成模型的研究工作,致力于构建那些具有明确“可游玩”特性的世界模型:用户或智体策略可以向模型输入动作指令,而模型则会实时地、逐帧地生成相应的环境观测反馈。Genie 项目训练一种“动作条件式”视频模型,能够将互联网上的静态视频片段转化为可供操控的交互式环境 [Bruce et al., 2024]。GameNGen 项目则展示扩散模型(Diffusion Model)如何充当《毁灭战士》(DOOM)游戏的实时引擎,利用“神经推演”机制来替代传统的游戏模拟器 [Valevski et al., 2024]。DIAMOND 项目将扩散世界模型应用于 Atari 游戏平台,并证实模型内部的“视觉保真度”水平,会对在其中进行训练的智体策略最终能够习得的能力产生实质性的影响 [Alonso et al., 2024]。从功能层面而言,DREAMTEAM 所构建的世界模型同样具备这种“可游玩”的特性。模拟器(Simulator)通过predict函数实现单步预测;策略库(Strategy Library)将这些单步预测组合成多步推演序列;而归纳探索器(Inductive Explorer)则在采取任何实际行动之前,先在模型内部对候选子目标进行推演模拟,以此对其进行评估。本系统的底层基(Substrate)与“生成式交互环境”这一研究路线有所不同:后者通过离线方式利用大规模视频语料库训练权重向量,进而渲染出像素图像;而系统中的基质,则是一组类型化的 Python 构件,它们是在线被读取、编辑并进行回归测试的,且整个过程仅涉及至多数十次交互。两者的共同设计理念在于:世界模型是进行推演模拟的场所,而学习的目标则是确保这些推演结果对真实环境具有高度的保真度。
具备记忆、工具和代码构件的LLM智体。LLM智体在推理阶段已具备自适应能力,其适应机制涵盖行动轨迹、检索到的记忆、反思、工具调用、认知架构状态以及持久化的技能代码 [Yao et al., 2022, Shinn et al., 2023, Packer et al., 2023, Sumers et al., 2023, Wang et al., 2023]。在上述大多数研究工作中,可写状态(writable state)通常由对话记录、记忆存储、工具执行结果和技能库的某种组合构成。针对失败的标准处理方式,通常是将另一条消息、摘要、反思记录或文档简单地追加到这个共享的状态池中。DREAMTEAM 的独特之处在于其对失败信息的路由方式:解析错误(misparse)会被发送至“观察模型”,而不会流向其他模块;错误的行动效果会被发送至“状态转移模型”;某种过拟合自身进度检查机制的策略会被发送至“策略库”;而那些归属权不明确的失败案例,则会被转化为一种用于探索的“探针”(probe)。这里的关键在于信息的路由机制,而非上下文窗口的大小。Meta-Harness [Lee et al., 2026] 通过引入一个具备智体特性的“提案生成器”来优化智体驾驭(harness)本身;该生成器能够读取先前候选框架的源代码、评分及执行轨迹,进而在跨任务的维度上搜索并优化框架代码。相比之下,“工作空间优化”(workspace optimization)模式则是在既定的框架之上运行内层循环,仅在单次任务回合(episode)内部对工作空间状态(Wt)进行自适应调整。
基于文本记忆的智体。与基于“类型化构件”的工作空间模式形成自然竞争关系的另一类智体,其记忆机制并非依赖于具有特定类型的可执行构件,而是通过自然语言文本进行中介与管理。Voyager 系统构建一个由代码技能组成的库,这些技能通过其对应的自然语言描述进行检索;其路由机制依据的是描述文本的匹配度,而非构件本身的类型 [Wang et al., 2023]。Reflexion 系统在每个任务回合结束后,都会追加一段自然语言形式的自我反思与批判,并在随后的尝试中将其作为一种文本记忆重新读取,以此来指导和调整后续的行动 [Shinn et al., 2023];由于其更新粒度是以“完整的行动轨迹”为单位,因此反馈信息仅在任务回合之间(即回合结束之后)才可供智体使用。Generative Agents 系统则将智体的过往经验组织成一条“记忆流”,该记忆流由一系列自然语言形式的观察记录构成;在进行记忆检索时,系统会根据每条记录的重要程度及时间新近度对其进行评分与排序 [Park et1 al., 2023]。 MemGPT 借鉴操作系统的隐喻,用于管理快速工作环境和较慢的归档存储之间的层级式文本记忆 [Packer et al., 2023]。这些系统的共同之处在于,它们都将记忆存储为使用时检索的自然语言文本,其中段落既是写入的单位,也是读取的单位。而 DREAMTEAM 则将数据写入类型化的可执行工件:一个相互矛盾的承诺会被路由到拥有它的观察、动态或策略槽位,补丁会根据回归集中的早期证据进行重放,并且信用分配会指定一个类型化的地址,而不是要检索的段落。更新节奏也更加精细。每个环境动作都包含一个单步预测,下一个观察结果会证实或否定该预测,因此工作区编辑是在轨迹本身内部提出的,粒度为单个转换。因此,适应过程在回合中持续进行,而早期转换的回归集会揭示候选补丁与先前证据之间的一致性问题。
程序化的上下文交互和递归推理。递归语言模型 [Zhang et al., 2025a] 将一个较长的提示符放置在 Python REPL 中,并让根 LLM 通过代码检查它,可以选择性地对代码片段生成递归子调用,并通过 FINAL 或 REPL 变量返回一个值。提示符成为模型查询的外部状态,而不是它必须读取的tokens。同样采用将结构推到模型外部并让代码在模型和大型外部对象之间进行协调的方法。两者的设置有三点不同。首先,RLM 在单个查询中运行,其 REPL 是短暂的,而工作区优化则将 W_t 跨步骤持久化,并将其视为可训练对象。其次,RLM 生成一个直推式输出(当前查询的值),并且没有机制来定位一个调用失败的修复,以便后续调用读取;DREAMTEAM 将每个矛盾的承诺路由到一个指定的负责人,并针对回归集评估补丁。第三,RLM 将一个提示分解为同一模型的多个副本,而 DREAMTEAM 将智能体本身分解为拥有不同功能面(观察、动态、策略、探测、批判、仲裁)的角色。RLM 是典型的纯推导式设计。
程序合成和可执行世界模型。程序合成与库学习系统将程序视为一种可学习的结构,并通过示例、测试或搜索过程对其进行修正 [Ellis et al., 2021; Grand et al., 2024; Romera-Paredes et al., 2024]。相关的 LLM 系统能够编写规划域,通过交互过程提出并优化世界模型,在候选假设空间中进行搜索,或对规划结构进行编译 [Guan et al., 2023; Hao et al., 2023; Wong et al., 2023; Gu et al., 2024; Levy et al., 2025; Wang et al., 2024]。在 ARC-AGI-1 和 ARC-AGI-2 任务集上,采用“冻结”模式的 LLM 智体能够依据演示网格来演化候选解决方案——具体而言,在 ARC-AGI-1 上生成的是 Python 程序,而在 ARC-AGI-2 上生成的是自然语言指令 [Berman, 2025]。SOAR 通过交替执行演化程序搜索与基于事后洞察的大语言模型(LLM)微调,实现了同一算法家族的规模化扩展,并在 ARC-AGI 公共测试集上取得了 52% 的成绩 [Pourcel et al., 2025];其内部搜索循环与 Berman 的设计相似,但在各次尝试之间会更新提议者(proposer)的权重,因此适应性学习被拆分到了候选工作区与参数向量这两个层面。这两种设计均采用离线模式运行,并针对演示集(demonstration sets)进行训练;在此过程中,演示集充当回归评估器,而候选程序则对应于工作区。DREAMTEAM 凭借其“模拟器”(Simulator)组件,成为了与这一研究路线最为接近的系统;该模拟器针对回归集进行在线演化,其演化方式与离线模式下候选程序针对演示集进行演化如出一辙。两者的关键区别在于“在线控制”机制:环境中的每一个动作都会产生一个反例或确认信号,随后系统针对当前预测结果进行修复,并依据此前留存的轨迹数据对修复方案进行评估。在此架构中,可执行的世界模型既是规划的对象,也是在当前回合(episode)内接受训练的对象。
基于好奇心驱动的假设修正机制,实现世界模型的在线构建。WorldLLM 通过维护一条关于环境动态的自然语言假设,实现在线构建一个“冻结模型”(frozen-model)式的世界模型;它利用贝叶斯推断对该假设进行精炼(其中,第二个 LLM 充当提议分布的角色),并通过强化学习(RL)策略来收集证据——该策略的奖励信号即为当前预测器下观测到的状态转移序列的负对数似然值 [Levy et al., 2025]。这一设定与 DREAMTEAM 颇为相似:两者均保持预测用的 LLM 处于冻结状态(即不进行参数更新),均将世界模型视为主要的训练对象,且均利用第二个 LLM 根据累积的证据来生成更新提议。然而,这两个系统在三个维度上存在差异。首先是底层基(substrate)的差异:WorldLLM 将世界模型存储为一段单一的自然语言假设文本,供预测器在推理阶段读取使用。相比之下,DREAMTEAM 将世界模型存储为可执行的 Python 代码,并明确定义了预测(predict)与推演(rollout)的入口点;因此,多步推演过程由运行时环境负责评估,且其工作区被划分为带有明确类型定义的若干槽位,分别用于存储观测数据、动态模型、策略、探测指令、批判性反馈以及仲裁结果。其次是更新验证机制的差异:WorldLLM 仅当修正后的假设能够提升当前证据缓冲区内的似然值时,才会予以采纳。而 DREAMTEAM 则会将加载的补丁(patch)针对此前作为回归集保留下来的状态转移序列进行重演(replay);一旦发现任何一致性失效的情况,即将其作为反例予以报告。因此,尽管重演机制仅提供反馈而非自动回滚的强制关卡,但这种验证方式依然具有明确性与可证伪性。第三是节奏。WorldLLM 在试次(trials)中交替进行证据收集与假设修正。DREAMTEAM 在每次动作之后提出一个补丁(patch),并将随后的观测结果视为一步式的反例或确认。在分类体系中,WorldLLM 是“工作空间优化”的一种单槽(single-slot)实例;在该实例中,提议者(proposer)采用贝叶斯推理,验证者(verifier)基于似然函数,其运作节奏则以试次为单位。
基于执行反馈的迭代式自我修正。一系列关于大语言模型智体(LLM-agent)的研究工作将模型的输出视为“草稿”,模型随后依据来自“评论者”或“执行者”的反馈对这些草稿进行修正。Self-Refine 提示同一模型在多次迭代中对自身的回答进行自我批判与重写 [Madaan et al., 2023];而 Self-Debug 则将代码生成过程与执行轨迹(execution traces)相结合,使模型能够定位并修复代码中的错误行 [Chen et al., 2023]。这些系统与 DREAMTEAM 拥有一个共同的策略:将反例反馈回产生该反例的原始“制品”(artifact)之中。然而,DREAMTEAM 在两个结构性方面有所不同。首先,待修复的制品仅局限于一小类具有明确类型且范围受限的“面”(surfaces)之中(具体包括:观测结果、动态模型、策略及探测结果);因此,一旦某个既定的“承诺”(commitment)被反驳,系统能够直接指明该承诺的具体归属对象,而非仅仅在原地对单一的提示语或程序进行笼统的修改。其次,每一个被加载的补丁都会针对此前保留下来的“回归测试”(regression tests)——即历史过渡状态数据——进行重演(replay);这样一来,任何与既往证据相冲突的不一致之处,都会作为明确的反馈信息被显式地呈现出来,并与当前发生的故障一并列出。
固定参数下的测试时训练与在线自适应。所谓“测试-时训练”(Test-time training),是指模型在生成最终预测结果之前,针对当前的测试实例本身运行一系列自监督更新,从而实现模型的自适应 [Sun et al., 2020]。这一策略在抽象推理基准测试中展现出了非凡的成效。例如,在解决每一项 ARC 任务之前,若先针对该任务的“合成变换版”进行微调,模型的准确率将得到显著提升 [Akyürek et al., 2024];此外,基于“最近邻”(nearest-neighbor)原理的变型模型也能够更广泛地提升语言模型的推理能力 [Hardt and Sun, 2024]。近期涌现的变型模型则致力于在“权重冻结”(frozen weights)——即不更新模型参数——的前提下实现同样的目标:ArcMemo 系统能够从既往的解题轨迹中提取出概念层面的抽象知识,并将其存入一个“终身记忆库”(lifelong memory)中,供模型在测试阶段进行检索与调用;据报告显示,该系统在不进行任何参数更新的情况下,依然能够在 ARC-AGI 基准测试中取得持续且稳健的性能提升 [Ho et al., 2025]。这些方法旨在解决 DREAMTEAM 所针对的同一问题:即在缺乏离线数据或特定任务奖励的情况下,模型如何适应陌生的实例。其机制在两个维度上存在差异。首先,基于梯度的测试时训练会将更新写入参数向量,这需要访问权重,并在任务结束后丢弃调整;而记忆检索变体则会构建一个扁平的过去抽象池,通过与当前输入的相似性进行访问。DREAMTEAM 则将更新写入一个类型化的工作空间,其槽位以可检查的文本和代码形式持久存在,并在固定推理 API 的部署后仍然存在。其次,测试时训练的更新由从测试输入导出的自监督辅助目标驱动,记忆检索的更新由相似性得分驱动,而 DREAMTEAM 的更新则由一个矛盾的承诺驱动,该承诺路由到负责的类型化工件并根据回归集进行评分,因此,信用分配指定了一个结构所有者,而不是生成全局参数方向或检索排名。
多智体 LLM 系统和计算图。多智体LLM系统可以分配角色、交换消息、分解任务或优化通信图[Hong et al., 2023, Zhuge et al., 2024, Guo et al., 2024]。Conductor[Nielsen et al., 2025]通过强化学习,利用工作节点拓扑结构和每个工作节点的提示信息来学习协调器的权重,而DREAMTEAM则保持每个模型冻结,并将学习集中在路由补丁和回归集上。最近的研究形式化反向过程,即自动故障归因:给定一个多智体故障,识别是哪个智体以及哪个步骤导致故障[Zhang et al., 2025c]。目前在Who&When基准测试中,智体级别的准确率仅为53.5%,这表明当智体通过非结构化的自然语言消息进行通信时,归因非常困难,因为原则上任何智体都可能对任何承诺负责。 DREAMTEAM 通过其独特的构造规避了逆问题:每个预测都由一个特定类型的槽位发出,因此负责的所有者在写入时就已确定,无需后续重建。DREAMTEAM 也使用角色,但角色是工作区训练图中的节点。每个节点负责可训练状态或更新过程的一部分:观察、动态、策略、探测、评论或仲裁。预测失败不会引发争论。该任务被路由给一位拥有有限补丁修改权限(bounded patch scope)的所有者;编辑完成后,系统会重放回归测试集,并将产生的差异(deltas)作为反馈呈现出来,以指导后续的修订工作。
ARC 与交互式推理基准测试。ARC 风格的基准测试旨在评估在先验知识匮乏(weak priors)情境下的抽象能力与规则发现能力 [Chollet, 2019]。ARC-AGI-3 将这种能力考查的压力延伸至“交互”层面:任务目标被隐匿于游戏环境之中,且智体所采取的每一次探索性行动都会消耗其既定的资源预算 [ARC Prize Foundation, 2026a]。此外,基于游戏环境的智体基准测试还着重考查规划、观察以及工具使用等方面的能力 [Paglieri et al., 2024; Park et al., 2025]。而 DREAMTEAM 项目则针对一个更为具体且关键的瓶颈问题:即如何在单次任务会话(episode)期间,构建出一个可供验证与测试的“世界模型”。
已发布的 ARC-AGI-3 基准测试报告显示,当前最前沿的大语言模型(LLM)基线成绩均远低于人类水平的 1%(具体指标为 RHAE):其中 Gemini 3.1 Pro 得分为 0.37%,GPT-5.4 为 0.26%,Opus 4.6 为 0.25%,而 Grok 4.20 的得分则为 0% [ARC Prize Foundation, 2026a]。随后针对 GPT-5.5 和 Opus 4.7 进行的一项包含 160 次重放测试的分析揭示了这些低分背后的症结所在——即智体缺乏结构化的“世界模型”:这些智体虽能感知并记录局部动作所产生的即时效应,却未能将这些离散的效应整合、构建成一套关于游戏动态的稳健理论体系;具体而言,Opus 表现为过度执着于一套错误的理论,而 GPT-5.5 则根本未能将所获取的证据归纳、压缩为任何形式的理论模型 [Kamradt, 2026]。在已发布的基准测试中,目前公开的最强智体是 Symbolica 公司的 Agentica SDK。这是一个基于 Opus 4.6 的多角色协同框架,在 182 个关卡中的 113 个上取得了 36.08% 的 RHAE 得分,运行成本约为 1005 美元 [Symbolica AI, 2026];相比之下,DREAMTEAM 在更新后协议下取得了 38.06% 的得分。早前举办的 ARC-AGI-3 智体预览竞赛(Agent Preview Competition)呈现一些具有互补价值的设计思路,其中包括一种非 LLM驱动的强化学习基线 [Smit, 2026] 以及一种基于图结构的探索型智体 [Rudakov et al., 2025]。这两项成果均基于“预览环境”以及 4 月 14 日更新之前的游戏版本进行汇报 [ARC Prize Foundation, 2026b],因此不符合采用的已发布基准测试协议。
1 可训练状态
将智体建模为一个二元组 (M, H),其中 M 是一个语言模型,H 是一个“驾驭”(harness),负责提供工具、沙盒环境以及上下文管理器。在一个交互式的多轮环境中,该驾驭会公开一个观测数据集 D_t 和一个结构化且可变的“工作空间”W_t;智体在每次调用语言模型 M 或与环境进行交互的前后,都会对该工作空间进行读取、写入和测试操作。形式上,对于第 t 个时间步:
W_t = (P_t, L_t),D_t = (o_0, a_0, r_0, …, o_t-1, a_t-1, r_t-1, o_t)。
标准的智体记忆通常是“只追加”式的:它仅记录已发生的事实,却不包含关于“接下来会发生什么”的理论推测,也不包含任何已固化以便复用的规则或代码。工作空间与观测数据集共同向智体公开三个可供读取的“槽位”(见表 1):位于 D_t 中的只追加式执行轨迹、位于 L_t 中的工作假设与规划,以及位于 P_t 中的程序代码。这些组件在整个运行过程中是不断演化的。
在第 t 个时间步,智体通过读取 W_t 来选择一个动作 a_t;一旦接收到下一个观测值 o_t+1,智体便对此次动作的后果进行评估,并将评估结果作为对工作空间的一次“编辑”操作写回:
a_t = Act(W_t, D_t),e_t = Evaluate(W_t, D_t+1),W_t+1 = Update(W_t, e_t)。
评估机制。评估信号 e_t 主要来源于三个方面。首先是外部奖励 r_t,该奖励独立于工作空间 W_t 的内容。其次是“预测失效”:即 L_t 中的某个假设或 P_t 中的某条规则曾对 o_t+1 进行预测,但实际接收的下一个观测值却与该预测相矛盾。第三是“回归性破坏”(regression breakage):驾驭会维护一个“回归测试集”R_t——这是一个从 D_t 中抽取的、包含近期状态转移记录的滑动窗口;驾驭会将当前刚刚编辑的程序代码,针对该测试集中的每一个条目进行回放测试。如果某个状态转移在旧版本的程序下能够被正确处理,但在经过修补的新版本下却无法再被正确处理,那么在下一个时间步中,该状态转移就会成为针对相关组件(或角色)的一个新的“反例”。
2. 工作空间作为计算图
目前已经有工作空间图的节点、权重空间 W_t 的组成部分以及用于对它们进行评分的信号 e_t,它们分别类似于标准训练中的权重和损失。剩下的就是边:一个节点的反馈如何转化为另一个节点的编辑。
在权重空间训练(图 2A)中,链式法则将标量损失分配给产生预测结果的参数。工作空间优化(图 2)不需要这种机制来命名发出失败声明的接口。每个预测都由一个特定的接口发出,因此 e_t 的预测失败组成部分带有该接口的名称。因此,接口级别的归因是直接的;更广泛的信用分配问题是应用补丁后随之而来的一系列修复。这种局部化的代价是预先支付的,即确保接口足够精确,可以被伪造。
局部归因并不意味着局部修复:对一个接口的补丁可能会破坏依赖于它的早期转换。假设一条移动规则预测左移动将角色移动一个单元格,在步骤 t 时,墙壁阻挡移动,模拟器对该规则进行修补;在针对 R_t 进行回放时,修补后的规则在之前左移动角色的转换中失败,这表明区分这两种情况的墙壁碰撞规则存在问题。修复会根据回放失败情况自动排序,无需预先构建路径。
两种机制替代可微性。回归集 R_t 防止单个修复结果仅停留在最近的转换上,而忽略较早的转换。工作空间的依赖结构限制修复结果的落点:每次编辑仅通过对已编辑接口的调用进行传播,并且智体无法重写的输入(模型的权重、环境和历史观测值)会终止链,就像停止梯度会终止反向传播一样。
备注 1(初始化)。工作空间优化从种子工作空间 W_0 开始,类似于神经网络中的权重初始化。种子工件为工作空间的演化方式设定一个归纳偏差。过于具体的种子工件会限制探索,并导致早期修复过拟合其初始本体。而不够具体的种子工件则会减缓引导过程,并导致早期行为不够精确。一颗优质的“种子”(seed)能为整体框架提供足够的结构支撑,从而使所产生的证据具有可用性,同时也为工作空间的演变预留了必要的余地。
备注 2(归纳式与转导式输出)。两个智体(agent)即使运行的是同一个模型,其返回结果仍可能有所不同:一种返回的是具体数值,另一种返回的则是可调用的工件(callable artifact)。前者称为“转导式”输出,后者称为“归纳式”输出 [Vapnik, 1998; Chapelle et al., 1999]。转导式输出(例如预测结果、行动建议、解释说明或行动计划)将作为上下文信息被纳入 L_t 中。归纳式输出(例如规则、渲染器或策略)则被纳入 P_t 中,并可针对智体此前从未见过的输入数据进行调用。当输入与输出之间的映射关系能够以代码形式表达时,采用归纳式输出通常是更优的选择:这种函数调用成本低廉且易于证伪,但其代价在于,它要求在证据可能尚不充分的情况下,就必须固化并遵循一套既定的接口规范。反之,当输入数据呈现非结构化特征,或者问题的解答有赖于模型自身的判断力时,采用转导式输出通常是更优的选择;但其代价在于,这种输出的可靠性相对较低,且往往容易表现出一种倾向于“自我印证”的特性。
ARC-AGI-3 将一个冻结的语言模型置于一个游戏之前,该游戏的规则、机制和目标均未知。在每个步骤 t 中,智体仅接收一个瞬态观测值 o_t,并必须在 a_t 处选择下一个动作。此设置与标准强化学习基准测试有两个显著区别:没有离线交互数据,也无法回溯步骤或展开并行演练以适应策略。此外,它还受到严格的动作效率约束:人类玩家只需几百步即可解决此类游戏。在这样的预算范围内,每个动作都是探索与利用之间的权衡,介于探测和推进之间。
冻结的模型带来强大的街机和电子游戏先验知识,这些先验知识涉及对象的含义、进度以及目标的可能方向。当这些先验知识与游戏机制和目标一致时,它们使得智体能够在几百步内完成游戏;而当它们产生误导时,后续的每个动作都会强化错误的解读,形成正反馈循环。
1 标准架构的局限性
无模型强化学习方法在这里行不通。评论家初始状态未初始化,没有信号引导策略,因此进展完全依赖于探索。即使探索成功通关一个关卡,也有两个问题阻碍标准策略梯度循环的闭合:轨迹严格在线,每个状态最多访问一次,因此每次奖励转移都只是一个噪声样本,强度太弱,无法拟合评论家;而且智体无法返回到该状态重新优化,因此任何改进都必须转移到后续关卡的状态,而这种信号本身也很弱。
纯粹基于模型的方法更接近于此场景的要求,因为原则上可以在每次动作之前查询工作记忆,并根据每次转移进行更新。但传统的潜动态模型要么需要离线数据,要么需要长时间的在线训练。即使是最先进的高效样本智体,也需要数千个环境步才能使其工作记忆变得可靠,而ARC-AGI-3则期望在几十步后就达到熟练水平。因此,智体使用的任何工作管理工具都必须能够以智体可以书写、检查和修改的形式呈现。
上述两种路径都未能解决一个更深层的问题:若缺乏关于目标的假设,探索便会失去方向;而在短短数百次动作的预算内,这种漫无目的的探索既难以偶然触及奖励信号,也无法充分覆盖状态空间,从而导致动力学模型的学习无法收敛。那么,智体究竟该如何在这一有限的预算内确立目标并进行高效探索呢?
2 随之而来的架构设计
上述种种观察结果均指向同一个方向:智体需要建立一套关于游戏机制的、显式且可供审视的“理论”——这套理论既源于与环境的交互,也通过交互进行检验。这套理论必须足够详尽,以便能够做出预测,从而使失败案例具备诊断价值;同时,其结构必须足够模块化,以便支持局部修复,确保单一预测的失误不至于迫使系统推倒重来、重建一切。
这一核心组件命名为“可执行的游戏世界模型”(Executable Game WM),并要求其具备以下三项特性:第一,在执行每一次动作之前,必须先做出一个确定的预测,以便后续通过对照实际观测结果进行回溯验证时,能够明确判定该预测究竟是得到了证实还是遭到了证伪;第二,一旦预测失败,必须能够准确识别出导致错误的具体接口(即观测解析模块、隐状态追踪模块或动作效果模块),从而确保修复工作仅需针对局部进行;第三,一旦预测结果变得足够可靠,该模型必须能够被智体内部的规划模块所调用,从而使智体不仅能基于实际动作进行决策,还能通过在“想象中的演练”(imagined rollouts)中进行推演来辅助决策。
这一架构范式显然脱胎于基于模型的强化学习领域著名的 Dreamer 框架 [Hafner et al., 2023],但包含一项实质性的变革:在此架构中,世界模型(WM)不再由参数构成,而是由代码(程序)构成。将工作空间中的每一个组成部分称为一个“表面”(Surface):它是一个带有类型约束的插槽,归属于特定的角色(Role)所有,专门用于存放该角色所读取及编辑的各类“制品”(Artifacts)——整个系统中共有六个此类界面,其具体列表详见表2。
训练循环沿袭了传统的梯度更新范式,但做出了调整:每一步产生的误差信号会被回传至具体发出错误预测的那一个“表面”处。修复操作将直接对程序代码进行原地修补(in-place patching);随后,系统会调用“回归测试集”(Regression Set)R_t 来重演此前的状态转移过程,以此对每一次代码修补的效果进行验证与评估。
剩下的问题(如图3所示)在于:由谁来编辑世界模型(WM),由谁来使用它,以及操作的粒度应设定在何种层级。若粒度过粗,单一角色将同时承担观察、动态建模、规划及仲裁等多重职能,从而显著增加每个调用环节的认知负荷。若粒度过细,角色间的职能交接与审计工作将耗尽本应用于执行环境动作的每一步实时时间预算。
为此,最终确立了六个角色,并依据“维护世界模型”与“通过世界模型进行行动”这两大维度对其进行了划分。具体而言,“观察者”负责将环境观测转化为结构化的状态信息;“模拟器”负责追踪隐状态,并在预测失准时对动态规则进行修正;“归纳探索者”负责固化可复用的策略;“转导探索者”负责提出旨在获取信息的探测方案;“评论者”负责将故障反馈至相应的责任角色;而“团队领导者”则负责仲裁并决定采纳哪一项方案。值得注意的是,“转导探索者”这一角色是在标准的Dreamer模型架构之外额外增设的:当世界模型尚处于初级阶段、通过常规策略推演(rollouts)尚无法获取有效信息时,这一负责提出探测方案的角色便能确保早期的探索过程始终保持明确的方向性。
DreamTeam执行工作空间优化如下。
1 智体工作空间
DREAMTEAM 将六角色分解具体化为团队的可编辑工作空间。每个角色恰好拥有一个“面”(surface):这是一个类型化的插槽,用于存放该角色负责读取、编辑并对其承担责任的各类产物(artifacts)。位于核心位置的是两个 WM(世界模型)界面:观测模型(Observer)和动力学模型(Simulator);两者在执行每一个动作之前都会提交一个具体的断言(claim),随后根据下一个观测结果,这些断言要么被确认保留,要么被修正更新。另外四个界面则用于存放 WM 尚处于构建成熟阶段时所需的“动作侧”状态信息:包括策略库(IE)、探测上下文(TE)、故障路由机制(Critic),以及目标与动作选择上下文(TL)。表2列出每一个面、其所属的角色,以及该界面所写入的产物。用符号 Wr_t 来表示 W_t 中归角色 r 所拥有的那一部分切片。这些面在设计上是相互紧密耦合的:一个角色的输出恰好是另一个角色的输入,因此环境每执行一步(env step),实际上都对整个处理链条进行了一次完整的演练。
WM 和策略库对外暴露一组精简的可调用接口。Observer 模型负责将原始观测 o_t 解析为逐步更新的结构化状态 z_t;随后,通过调用 render(z_t) 并将结果回传至屏幕进行比对,以此对解析出的状态进行校验。Simulator 模型则通过公式 z’_t+1 = predict(z_t, h_t+1, a_t) 来提交关于下一步状态的断言;其中,h_t 代表跨步传递并累积的历史信息,其更新方式为 h_t+1 = history(z_t, h_t, a_t)。策略库则对外提供一套位于“驾驭侧”(harness-side)的“推演”(rollout)机制,该机制能够依据当前策略 policy(z_t, h_t) 生成一系列假想的轨迹序列。predict/render函数与 Observer 的parse函数之间存在着一种刻意的非对称设计:render和predict对应着游戏引擎内部已有的镜像函数,因此它们可以作为代码被固化在 P_t 中,并供任何人反复调用执行;然而,将网格状原始观测 o_t 解析为结构化状态 z_t 的过程(即 z_t ← o_t),在游戏引擎内部并没有对应的镜像函数。正因如此,Observer 所承担的任务属于一种“转导式”(transductive)任务:每一次解析操作仅针对当前步骤产生一个即时输出结果,而不会生成任何可被固化并复用的可调用函数形式。
单独携带 h_t 赋予智体在部分可观测博弈中取得进展的能力:当当前网格遮蔽部分状态(例如遮挡、屏幕外实体或隐性计时器)时,仅凭 z_t 是不足以应对的;而 h_t 作为对过往观测的持久性摘要,可供预测模块与 z_t 一同读取。
2 WM(世界模型)精修循环
DREAMTEAM 的 WM 通过一种“提交-回溯”循环来进行精修。当动作 a_t 被提交时,模拟器(Simulator)的动力学程序在 W_t 状态下被固定下来;在下一个观测值 o_t+1到达后,观测器(Observer)对 o_t+1 进行编码得到 z_t+1,随后驾驭(Harness)将预测值 zˆ_t+1 = predict(z_t, h_t+1, a_t) 与实际值 z_t+1 进行比对:
e_t =diff(zˆ_t+1,z_t+1).
驾驭产生的差异(diff)是精修信号的一个来源。另一个来源是同行反馈:不同的角色(Roles)相互审计对方的产物(Artifacts),并将审计发现以内联形式 F_a→b 进行传递——其中角色 a 针对角色 b 的产物,向角色 b 撰写一条定向评论。反馈信息携带差异比对所无法提供的信息:除了数值上的不匹配之外,审计过程还能审视推理链条和本体论(Ontology)的选择是否恰当。在 WM 内部,观测器审计模拟器的预测逻辑,而模拟器则审计观测器对 z_t 的解析逻辑;因此,每个维护者(Maintainer)的评估信号 er_t 实际上是将差异比对结果与接收到的同行反馈进行整合,从而契合Update(W_t, e_t) 的形式:
esim_t = (e_t, F_obs→sim), Wsim_t+1 = Update(Wsim_t, esim_t),
对于观测器而言,这一过程也是对称的,其评估信号为 eobs_t = (e_t, F_sim→obs)。
在图 4 所示的 tu93 故障案例中,e_t 并非空集(即存在差异)。驾驭将该差异分解为若干具名的组件,并分别将其呈现给对应产物的负责人:观测器看到自身在各字段编码上的不匹配之处,而模拟器则看到自身的预测误差。在此案例中,差异信息包含一个“观测组件”(即观测器此前未能为障碍精灵 [sprite] 命名)和一个“动力学组件”(即模拟器此前尚未将“接触”行为建模为具有致命后果);由此引发的修复操作包括:新增一个障碍实体,并添加一条关于“致命接触”的规则。随后进行的回归测试(Regression Checks)会报告:新修订的程序代码破坏哪些此前已通过验证的测试用例——这些报告信息将为下一轮的编辑工作提供指引。
3 从探测到规划
在每一个步骤中,三个角色(TL、IE、TE)都会依据不同的信号生成候选动作。IE 接收当前的 WM 状态 (z_t, h_t),对集合 Π_t 中的每一条策略 π 执行“推演”(rollout)操作,并根据当前活跃的子目标集 G_t 对由此产生的轨迹 (zˆ, hˆ) 进行评分;凡是其推演结果能够达成某个子目标的策略,即成为候选规划。TE 读取近期的步骤日志以及驾驭(harness)提供的“回溯预测路由”信息,针对那些 WM 尚未能完全拟合(fit)的区域,提出一系列旨在获取信息的动作序列。TL 处于整个流程的汇聚点:它审视 IE 提出的候选策略与 TE 提出的候选序列,判断当前的 WM 状态是否已足够可靠,足以支撑基于推演的规划;随后,它从中选定一个动作或一条策略,将其确立为当前步骤的实际动作 a_t。
在步骤结束之际,每一个角色都会依据两种误差信号来更新自身状态。首先,Critic会依据整个团队所掌握的证据,对每一个角色提出的方案进行审计,并发出 F_crt→TE、F_crt→IE 和 F_crt→TL 等信号,以此标记出其中存在的假设失效、本体漂移(ontology drift)或陷入死循环(grinding loops)等问题。其次,角色还会从自身的实际动作执行失败中获取信号:例如,某条 IE 策略在推演时预测能够取得进展,但实际执行后却导致关卡等级下降,此时该策略便提供一个反例;又如,某次 TE 探测所预期的效果并未如期显现,此次探测同样提供一个反例。上述两类输入信息将通过一个整合后的评估信号进入角色的更新机制中:
es_t = (δs_t, F_crt→s),Ws_t+1 = Update(Ws_t, es_t),其中 s ∈ {TL, IE, TE}。
在此公式中,δs_t 代表该角色自身所作的“假设”与实际“结果”之间的差异(即误差);它是控制框架用于更新 WM 面(surfaces)的“回溯预测差异”信号在角色侧的对应物。
在关卡进程的不同阶段,同一个工作空间呈现出的样貌也会有所不同。以 tu93 关卡的第一阶段初期为例(参见图 4):此时 WM 尚未能完全捕捉到关于障碍物接触规则的知识,因此诸如触碰某个方块或径直撞向墙壁之类的动作,在当时均被视为一种“探测”手段——因为在那个阶段,TL 尚无法获得任何可靠的预测信息,自然也就无从开展基于预测的规划工作。一旦环境表面趋于稳定,且策略库中已包含适用的战术,TL便会转而采用基于模型的规划方案。首次“死亡”事件会触发一次修复过程,将针对障碍物的接触规则从单纯的“阻挡”升级为具有“致命”后果的规则;在随后的几个步骤中,TL会优先采取“探测”行动,直至此次修复补丁完全生效并稳定下来。由此形成了一个控制回路:回路中的每一个动作既承载着特定的游戏目标,同时也扮演着一种“认知”角色——它可能用于确认当前的世界模型(WM)依然适用,可能用于揭示需要修复的“反例”,也可能用于提供线索以定位下一次修复的具体位置。
利用官方 RHAE 评分器,在包含 25 个关卡的 ARC-AGI-3 公共数据集上对 DREAMTEAM 进行评估。两次运行结果中某一次的 ARC 奖项记分卡记录:https://arcprize.org/scorecards/831c83cf-b969-45fc-a6ce-27f9b3c4105c。
综合两次运行的平均结果来看,DREAMTEAM 在前约 5 小时内保持领先地位(在第 3 小时左右达到约 +4.5 个百分点的领先峰值);两条曲线在大约 5.3 小时处发生交叉,此后人类选手的表现开始反超,并一直领先至 24 小时计时结束。两次运行的得分曲线紧密地聚拢在平均值周围,波动幅度极小。将这种后期差距归因于人类选手更强的“跨关卡迁移”能力:即在关卡 l 中掌握的某种解题机制,在关卡 l+1 中几乎可以零成本地直接复用;相比之下,团队在每次关卡切换时,都需要对其工作空间的部分组件进行重建。
