当前位置：首页 > news >正文

分层实验智能体（HExA）：基于上下文自演化物理推理智能体框架

news 2026/7/1 18:11:24

分层实验智能体（HExA）：基于上下文自演化物理推理智能体框架

论文原链接：https://arxiv.org/html/2606.29315v1

摘要

大语言模型（LLM）智能体已广泛用于规划、代码生成等任务，但主流方案依赖预训练参数知识、离线检索与固定提示词，面对全新未知物理环境时存在严重缺陷：仅依靠固有物理知识无法完成长时序、多约束实验推理。
本文提出分层实验智能体 HExA（Hierarchical Experimentalist Agents），一套纯上下文、无需模型微调的自改进强化学习框架。核心三大能力：

自主设计、迭代优化针对特定问题的物理仿真实验；
从交互轨迹中分层提炼可跨任务复用的物理技能库，持续自更新；
融合实验观测结果完成推理与决策。
配套推出Interphyre仿真评测基准，基于PHYRE 2D物理引擎，提供完整工具调用、干预回溯API，专门评测智能体主动实验能力。
实验结果：在最难Catapult弹弓关卡，基线Claude Sonnet 4.6仅2%通过率，HExA提升至77%；仅依靠简单关卡迁移技能、不接触目标关卡数据时，仍可达44%成功率，Qwen等开源模型均有稳定提升。HExA无需梯度更新、离线数据集与人工标注，适配任意黑盒大模型。

1 引言

1.1 LLM智能体现有范式缺陷

当前主流LLM推理范式依赖预训练时学习的海量静态知识，在以下两类场景完全失效：

全新未知环境：动力学、约束规则训练集中从未出现，无法仅凭记忆推理；
抽象知识落地：模型掌握通用物理定律，但无法针对定制场景完成精确实验、调试、试错。
单纯思维链（CoT）、检索增强只能复用已有信息，无法通过主动探索获取新知识。人类科学家依靠主动实验、假设验证、归纳复用完成未知领域探索，而现有智能体缺少这套闭环。

1.2 核心研究问题

如何让LLM智能体仅通过上下文交互，借助主动实验、技能沉淀高效处理全新复杂物理任务，且技能可跨关卡迁移？

1.3 本文核心贡献

定义实验导向上下文强化学习范式：将主动假设、仿真实验、经验提炼作为核心流程，设计Interphyre 2D物理评测基准，配套完整工具API、关卡数据集；
提出HExA分层实验智能体框架：Actor实验智能体+Evolver提炼智能体双循环，全程无模型权重更新，自动构建分层可复用技能库；
大规模评测验证：在Interphyre八大物理关卡测试闭源Claude、开源Qwen/GPT-OSS系列模型，HExA相比ReAct、Reflexion基线大幅提升通过率，且技能支持零样本跨关卡迁移；
消融实验证明核心模块价值：技能奖励权重、技能更新策略、离线预热机制均对性能有显著增益，同等交互样本下优于GRPO梯度微调方案。

1.4 整体框架示意图说明

基线ReAct：每个种子关卡独立交互，无跨样本经验留存，每次从零试错；
HExA单关卡自演化：批量种子完成实验后，Evolver提炼技能库注入后续提示词，持续迭代优化探索策略；
跨关卡技能迁移：多个简单关卡技能库融合，无需在困难关卡做任何实验，直接用于零样本求解。

2 相关工作

2.1 工具增强推理智能体（ReAct/Reflexion）

ReAct构建“思考-动作-观测”单轮循环，但无跨样本长期记忆；Reflexion增加失败反思文本，但不会结构化沉淀可复用技能，每次任务独立推理，重复大量无效试错。

2.2 上下文强化学习（ICRL）

传统ICRL依赖大量离线轨迹预训练，或仅记录原始交互文本，未做结构化知识压缩；HExA创新将轨迹提炼为标准化技能+错误案例知识库，大幅降低上下文长度，提升复用效率。

2.3 技能自动生成领域

AutoSkill、SkillX等方法依赖外部奖励、真值标签或微调模型；HExA完全依靠仿真环境交互反馈，纯上下文完成分层技能提取，兼容API闭源模型。

2.4 物理推理评测基准

PHYRE、CRAFT、PhysBench仅提供静态场景问答，缺少主动干预、分步仿真、因果回溯接口；Interphyre新增快照回滚、分步模拟、碰撞日志、自定义几何分析工具，专门评测实验探索能力。

2.5 梯度类强化学习（GRPO/DPO）

需要GPU、大量交互样本做参数更新，小样本场景收敛慢；HExA无需权重改动，交互经验立刻生效，适合低资源、快速迭代场景。

3 HExA框架完整设计

3.1 整体双智能体循环架构

HExA由两大LLM模块组成，全程不更新模型权重，仅通过文本上下文传递经验：

Actor（执行智能体）：读取技能库+关卡描述，调用仿真工具做实验，生成完整交互轨迹并打分；
Evolver（提炼智能体）：批量读取成功/失败轨迹，对比高低分案例，提炼通用策略技能与典型错误；
检索器Retriever：按奖励分数筛选最优技能，注入Actor提示词，指导下一轮实验。

3.2 数学形式化定义

3.2.1 任务定义

ℓ\ellℓ代表一类物理关卡，sjs_jsj为随机种子（对应场景布局）；
每个episode最多T次工具调用，yj(π)y_j(\pi)yj(π)代表该种子是否仿真达成目标（1成功/0失败）。
交互工具集合F\mathcal{F}F提供场景查询、分步/完整仿真、几何分析接口。

3.2.2 轨迹奖励函数（区分效率+成败）

r(\tau)= \begin{cases} +1.0 & 成功且≤3轮 \\ +0.75 & 成功且≤7轮 \\ +0.50 & 成功且≤15轮 \\ +0.25 & 成功且用尽T轮 \\ -0.50 & 失败，交互≥10次（充分探索，有学习价值） \\ -0.75 & 失败，交互<10次（过早放弃，价值低） \end{cases}

奖励区分充分探索的失败与浅尝辄止的失败，让Evolver优先提炼有效实验经验。

3.2.3 技能库更新规则

每轮完成x个种子交互后，Evolver执行两步蒸馏：

对比提炼正向技能：高分成功轨迹对比低分轨迹，总结物理机制、适用场景、标准操作；每条技能包含标题、原理、使用条件、示例；
失败提炼错误模板：从失败轨迹提取错误描述、根因、修正方案；同时提取“局部正确但整体失败”的部分技能。
技能附带归一化奖励分数：
rk=clamp⁡(rˉsrc+12, 0.1, 1.0)r_{k}=\operatorname{clamp}\left(\frac{\bar{r}_{\mathrm{src}}+1}{2},\,0.1,\,1.0\right)rk=clamp(2rˉsrc+1,0.1,1.0)
rˉsrc\bar{r}_{\mathrm{src}}rˉsrc：该技能对应所有轨迹平均奖励，分数越高检索优先级越高。

3.2 完整HExA算法伪代码

输入：Actor模型、Evolver模型、关卡ℓ、每轮种子数x、总迭代轮数R、检索最大技能M/错误N 1. 初始化技能库K0： 离线预热(Off/Off2On)：无技能库Actor跑N0条轨迹，蒸馏生成初始库 纯在线(Online)：K0为空 2. 循环 n=1 到 R： 1. 检索器从K_{n-1}取出前M高分技能、N高频错误，组成上下文G_n 2. 循环当前批次所有种子，Actor携带G_n生成交互轨迹τ，计算单条奖励r(τ) 3. 收集本轮全部轨迹T^(n)送入Evolver 4. 更新技能库K_n： - Evolving模式：旧库+新轨迹融合、合并、剪枝生成新库 - Iterative模式：仅用本轮轨迹完全重建库 - Offline模式：库冻结不更新 3. 迭代结束输出最终技能库K_R

3.3 三种初始化+两种更新策略组合（5种变体）

Offline：离线预热生成库，全程冻结不更新；
Off2On-Evolving（最优配置）：离线预热初始化，每轮融合新旧技能；
Off2On-Iterative：离线预热，每轮仅用新轨迹重建；
Online-Evolving：从零起步，每轮融合；
Online-Iterative：从零起步，每轮完全重建。
实验证明Off2On-Evolving在所有关卡通过率、迭代效率最优。

3.4 跨关卡技能迁移机制

流程：

输入多个简单关卡成熟技能库；
Evolver剥离关卡专属坐标、物体名称，保留通用物理原理；
结合目标关卡物体、约束重写技能适用条件，生成全新目标技能库；
直接用于目标关卡Actor，无需在目标关卡跑任何实验。
例：Down to Earth、Two Body、Pass the Parcel三关技能融合后，Catapult弹弓关卡基线8%→44%。

3.5 Interphyre仿真工具API（核心工具全集）

共享通用工具（全部关卡可用）

get_level_state()：获取场景所有物体坐标、半径、动态属性、胜利条件；
simulate_action(x,y,radius)：放置红球完整仿真，返回成败+物体最终位置；
simulate_part(x,y,radius,stop_step)：仿真至指定步数暂停，查看中间状态；
get_contact_log()：获取碰撞时序日志；
finish(x,y,radius)：提交最终红球位置判定胜负。

关卡专属几何分析工具

Down to Earth：compute_gap_analysis()平台缝隙宽度分析；
Two Body：compute_relative_positions()两球相对距离、碰撞预判；
Catapult（核心实验关卡）
- describe_scene_geometry()：完整场景几何清单；
- simulate_with_trace(x,y,radius,object_names,stop_step)多物体运动轨迹；
- trace_green_ball(x,y,radius)仅追踪目标绿球；
- predict_first_contact(x,y,radius)预判首次碰撞物体，节省仿真开销；
Falling Into Place：compute_intercept_setup()拦截时序计算；
Basket Case：compute_basket_analysis()篮筐偏移分析；
Pass the Parcel：get_ramp_center()斜坡几何；
Cliffhanger：悬崖倾覆几何；
Tipping Point：杠杆倾倒临界计算。

4 实验设计与结果分析

4.1 实验环境

评测基准：Interphyre八大2D物理关卡（简单6关+高难2关：Pass the Parcel、Catapult）；
测试模型：Claude Sonnet 4.6、Qwen-2.5 3B/7B、GPT-OSS 20B/120B；
对比基线：Direct（单轮无工具）、ReAct、Reflexion、GRPO梯度微调；
单种子最大交互轮次：25轮；
评测指标：关卡成功率、平均交互轮次（越少效率越高）。

4.2 基线模型原始表现（无技能增强）

关卡	随机策略	Q-7B	Q-14B	O-20B	O-120B	Claude Sonnet
Cliffhanger	0	0	0	0	0	0
Tipping Point	3	0	3	8	2	0
Basket Case	4	0	2	14	13	9
Down to Earth	8	18	0	16	3	14
Two Body	14	4	16	13	1	68
Falling Into Place	1	8	1	3	29	23
Pass the Parcel	0	0	0	0	3	0
Catapult	0	0	0	0	0	2
高难两关绝大部分模型基线接近0，是验证HExA效果核心场景。

4.3 单关卡自演化实验结果

4.3.1 Catapult弹弓关卡（最难关卡）

ReAct基线：8%成功率，平均22.9轮；
Reflexion：21.3%；
HExA无奖励技能：50.7%；
HExA带奖励（最优）：67.3%，平均仅14.4轮，交互减少37%。

4. 开源Qwen模型提升效果

关卡	基线ReAct	HExA提升后
Down to Earth Q3B	8% → 24%
Down to Earth Q7B	62% →72%
Two Body Q3B	6%→14%
Two Body Q7B	18%→34%
Catapult GPT-OSS120B	0%→54%

4.4 跨关卡零样本迁移实验

仅用简单关卡技能、不跑目标关卡实验：

Catapult（目标）：源DTE+TBP+PTP，基线8%→44%（提升36个百分点）；
Falling Into Place：源DTE，20%→32%；
Two Body：源DTE，18%→34%；
证明提炼的是通用物理原理，非关卡专属坐标技巧。

4.5 消融实验关键结论

奖励标签至关重要：去掉奖励权重，Q7B两关平均下降8~10%成功率；
更新策略：Evolving融合优于Iterative重建，不会丢失前期有效技能；
离线预热初始化可大幅降低前期试错轮次；
同等交互样本下，HExA优于GRPO梯度微调（小样本场景梯度更新收敛慢）。

4.6 典型案例：Catapult种子45完整对比

ReAct：25轮全部失败，反复微调同一块区域红球坐标，不懂更换发射支点；
HExA：读取演化技能库，识别x=0.5是标准发射点、天花板撞击需左移至x=0.3，仅6轮成功，红球参数(0.3,0.9,1.5)；
技能库关键知识：

默认发射x≈0.5；
r>1.5无法提升射程，仅改变发射角度；
天花板碰撞不要加大半径，横向偏移x即可改变弹道；
避免在同一x区间反复微调。

5 讨论、局限与未来工作

5.1 现有局限

评测仅局限2D物理仿真，未拓展机械、化学、生物等科学实验场景；
技能质量受基础LLM推理能力限制；
仅二元成败奖励，复杂多目标工业实验场景适配不足；
每轮Evolver推理存在额外上下文开销，大规模迭代速度受限。

5.2 未来研究方向

拓展多领域实验基准（数值仿真、化学合成、机器人操控）；
优化技能压缩算法，降低提示词长度开销；
HExA+梯度RL混合方案：先用上下文技能预热，再微调模型；
多智能体协同实验、跨领域通用技能迁移。

6 结论

本文提出HExA分层实验智能体，纯上下文、无需微调即可让LLM通过自主仿真实验沉淀分层可复用技能。配套Interphyre物理仿真基准提供完整实验工具链。
在最难物理关卡上，HExA将模型成功率从2%提升至77%，开源模型均获得稳定增益，且技能可零样本跨关卡复用。
相比梯度强化学习，HExA在少量交互样本下收敛速度更快，无需GPU训练，兼容所有闭源/开源LLM，为实验型AI智能体提供轻量化自改进新思路。