当前位置: 首页 > news >正文

分层实验智能体(HExA):基于上下文自演化物理推理智能体框架

分层实验智能体(HExA):基于上下文自演化物理推理智能体框架

论文原链接:https://arxiv.org/html/2606.29315v1

摘要

大语言模型(LLM)智能体已广泛用于规划、代码生成等任务,但主流方案依赖预训练参数知识、离线检索与固定提示词,面对全新未知物理环境时存在严重缺陷:仅依靠固有物理知识无法完成长时序、多约束实验推理。
本文提出分层实验智能体 HExA(Hierarchical Experimentalist Agents),一套纯上下文、无需模型微调的自改进强化学习框架。核心三大能力:

  1. 自主设计、迭代优化针对特定问题的物理仿真实验;
  2. 从交互轨迹中分层提炼可跨任务复用的物理技能库,持续自更新;
  3. 融合实验观测结果完成推理与决策。
    配套推出Interphyre仿真评测基准,基于PHYRE 2D物理引擎,提供完整工具调用、干预回溯API,专门评测智能体主动实验能力。
    实验结果:在最难Catapult弹弓关卡,基线Claude Sonnet 4.6仅2%通过率,HExA提升至77%;仅依靠简单关卡迁移技能、不接触目标关卡数据时,仍可达44%成功率,Qwen等开源模型均有稳定提升。HExA无需梯度更新、离线数据集与人工标注,适配任意黑盒大模型。

1 引言

1.1 LLM智能体现有范式缺陷

当前主流LLM推理范式依赖预训练时学习的海量静态知识,在以下两类场景完全失效:

  1. 全新未知环境:动力学、约束规则训练集中从未出现,无法仅凭记忆推理;
  2. 抽象知识落地:模型掌握通用物理定律,但无法针对定制场景完成精确实验、调试、试错。
    单纯思维链(CoT)、检索增强只能复用已有信息,无法通过主动探索获取新知识。人类科学家依靠主动实验、假设验证、归纳复用完成未知领域探索,而现有智能体缺少这套闭环。

1.2 核心研究问题

如何让LLM智能体仅通过上下文交互,借助主动实验、技能沉淀高效处理全新复杂物理任务,且技能可跨关卡迁移?

1.3 本文核心贡献

  1. 定义实验导向上下文强化学习范式:将主动假设、仿真实验、经验提炼作为核心流程,设计Interphyre 2D物理评测基准,配套完整工具API、关卡数据集;
  2. 提出HExA分层实验智能体框架:Actor实验智能体+Evolver提炼智能体双循环,全程无模型权重更新,自动构建分层可复用技能库;
  3. 大规模评测验证:在Interphyre八大物理关卡测试闭源Claude、开源Qwen/GPT-OSS系列模型,HExA相比ReAct、Reflexion基线大幅提升通过率,且技能支持零样本跨关卡迁移;
  4. 消融实验证明核心模块价值:技能奖励权重、技能更新策略、离线预热机制均对性能有显著增益,同等交互样本下优于GRPO梯度微调方案。

1.4 整体框架示意图说明

  1. 基线ReAct:每个种子关卡独立交互,无跨样本经验留存,每次从零试错;
  2. HExA单关卡自演化:批量种子完成实验后,Evolver提炼技能库注入后续提示词,持续迭代优化探索策略;
  3. 跨关卡技能迁移:多个简单关卡技能库融合,无需在困难关卡做任何实验,直接用于零样本求解。

2 相关工作

2.1 工具增强推理智能体(ReAct/Reflexion)

ReAct构建“思考-动作-观测”单轮循环,但无跨样本长期记忆;Reflexion增加失败反思文本,但不会结构化沉淀可复用技能,每次任务独立推理,重复大量无效试错。

2.2 上下文强化学习(ICRL)

传统ICRL依赖大量离线轨迹预训练,或仅记录原始交互文本,未做结构化知识压缩;HExA创新将轨迹提炼为标准化技能+错误案例知识库,大幅降低上下文长度,提升复用效率。

2.3 技能自动生成领域

AutoSkill、SkillX等方法依赖外部奖励、真值标签或微调模型;HExA完全依靠仿真环境交互反馈,纯上下文完成分层技能提取,兼容API闭源模型。

2.4 物理推理评测基准

PHYRE、CRAFT、PhysBench仅提供静态场景问答,缺少主动干预、分步仿真、因果回溯接口;Interphyre新增快照回滚、分步模拟、碰撞日志、自定义几何分析工具,专门评测实验探索能力。

2.5 梯度类强化学习(GRPO/DPO)

需要GPU、大量交互样本做参数更新,小样本场景收敛慢;HExA无需权重改动,交互经验立刻生效,适合低资源、快速迭代场景。

3 HExA框架完整设计

3.1 整体双智能体循环架构

HExA由两大LLM模块组成,全程不更新模型权重,仅通过文本上下文传递经验:

  1. Actor(执行智能体):读取技能库+关卡描述,调用仿真工具做实验,生成完整交互轨迹并打分;
  2. Evolver(提炼智能体):批量读取成功/失败轨迹,对比高低分案例,提炼通用策略技能与典型错误;
  3. 检索器Retriever:按奖励分数筛选最优技能,注入Actor提示词,指导下一轮实验。

3.2 数学形式化定义

3.2.1 任务定义

ℓ\ell代表一类物理关卡,sjs_jsj为随机种子(对应场景布局);
每个episode最多T次工具调用,yj(π)y_j(\pi)yj(π)代表该种子是否仿真达成目标(1成功/0失败)。
交互工具集合F\mathcal{F}F提供场景查询、分步/完整仿真、几何分析接口。

3.2.2 轨迹奖励函数(区分效率+成败)
r(\tau)= \begin{cases} +1.0 & 成功且≤3轮 \\ +0.75 & 成功且≤7轮 \\ +0.50 & 成功且≤15轮 \\ +0.25 & 成功且用尽T轮 \\ -0.50 & 失败,交互≥10次(充分探索,有学习价值) \\ -0.75 & 失败,交互<10次(过早放弃,价值低) \end{cases}

奖励区分充分探索的失败与浅尝辄止的失败,让Evolver优先提炼有效实验经验。

3.2.3 技能库更新规则

每轮完成x个种子交互后,Evolver执行两步蒸馏:

  1. 对比提炼正向技能:高分成功轨迹对比低分轨迹,总结物理机制、适用场景、标准操作;每条技能包含标题、原理、使用条件、示例;
  2. 失败提炼错误模板:从失败轨迹提取错误描述、根因、修正方案;同时提取“局部正确但整体失败”的部分技能。
    技能附带归一化奖励分数:
    rk=clamp⁡(rˉsrc+12, 0.1, 1.0)r_{k}=\operatorname{clamp}\left(\frac{\bar{r}_{\mathrm{src}}+1}{2},\,0.1,\,1.0\right)rk=clamp(2rˉsrc+1,0.1,1.0)
    rˉsrc\bar{r}_{\mathrm{src}}rˉsrc:该技能对应所有轨迹平均奖励,分数越高检索优先级越高。
3.2 完整HExA算法伪代码
输入:Actor模型、Evolver模型、关卡ℓ、每轮种子数x、总迭代轮数R、检索最大技能M/错误N 1. 初始化技能库K0: 离线预热(Off/Off2On):无技能库Actor跑N0条轨迹,蒸馏生成初始库 纯在线(Online):K0为空 2. 循环 n=1 到 R: 1. 检索器从K_{n-1}取出前M高分技能、N高频错误,组成上下文G_n 2. 循环当前批次所有种子,Actor携带G_n生成交互轨迹τ,计算单条奖励r(τ) 3. 收集本轮全部轨迹T^(n)送入Evolver 4. 更新技能库K_n: - Evolving模式:旧库+新轨迹融合、合并、剪枝生成新库 - Iterative模式:仅用本轮轨迹完全重建库 - Offline模式:库冻结不更新 3. 迭代结束输出最终技能库K_R

3.3 三种初始化+两种更新策略组合(5种变体)

  1. Offline:离线预热生成库,全程冻结不更新;
  2. Off2On-Evolving(最优配置):离线预热初始化,每轮融合新旧技能;
  3. Off2On-Iterative:离线预热,每轮仅用新轨迹重建;
  4. Online-Evolving:从零起步,每轮融合;
  5. Online-Iterative:从零起步,每轮完全重建。
    实验证明Off2On-Evolving在所有关卡通过率、迭代效率最优。

3.4 跨关卡技能迁移机制

流程:

  1. 输入多个简单关卡成熟技能库;
  2. Evolver剥离关卡专属坐标、物体名称,保留通用物理原理;
  3. 结合目标关卡物体、约束重写技能适用条件,生成全新目标技能库;
  4. 直接用于目标关卡Actor,无需在目标关卡跑任何实验
    例:Down to Earth、Two Body、Pass the Parcel三关技能融合后,Catapult弹弓关卡基线8%→44%。

3.5 Interphyre仿真工具API(核心工具全集)

共享通用工具(全部关卡可用)
  1. get_level_state():获取场景所有物体坐标、半径、动态属性、胜利条件;
  2. simulate_action(x,y,radius):放置红球完整仿真,返回成败+物体最终位置;
  3. simulate_part(x,y,radius,stop_step):仿真至指定步数暂停,查看中间状态;
  4. get_contact_log():获取碰撞时序日志;
  5. finish(x,y,radius):提交最终红球位置判定胜负。
关卡专属几何分析工具
  1. Down to Earth:compute_gap_analysis()平台缝隙宽度分析;
  2. Two Body:compute_relative_positions()两球相对距离、碰撞预判;
  3. Catapult(核心实验关卡)
    • describe_scene_geometry():完整场景几何清单;
    • simulate_with_trace(x,y,radius,object_names,stop_step)多物体运动轨迹;
    • trace_green_ball(x,y,radius)仅追踪目标绿球;
    • predict_first_contact(x,y,radius)预判首次碰撞物体,节省仿真开销;
  4. Falling Into Place:compute_intercept_setup()拦截时序计算;
  5. Basket Case:compute_basket_analysis()篮筐偏移分析;
  6. Pass the Parcel:get_ramp_center()斜坡几何;
  7. Cliffhanger:悬崖倾覆几何;
  8. Tipping Point:杠杆倾倒临界计算。

4 实验设计与结果分析

4.1 实验环境

  1. 评测基准:Interphyre八大2D物理关卡(简单6关+高难2关:Pass the Parcel、Catapult);
  2. 测试模型:Claude Sonnet 4.6、Qwen-2.5 3B/7B、GPT-OSS 20B/120B;
  3. 对比基线:Direct(单轮无工具)、ReAct、Reflexion、GRPO梯度微调;
  4. 单种子最大交互轮次:25轮;
  5. 评测指标:关卡成功率、平均交互轮次(越少效率越高)。

4.2 基线模型原始表现(无技能增强)

关卡随机策略Q-7BQ-14BO-20BO-120BClaude Sonnet
Cliffhanger000000
Tipping Point303820
Basket Case40214139
Down to Earth818016314
Two Body1441613168
Falling Into Place18132923
Pass the Parcel000030
Catapult000002
高难两关绝大部分模型基线接近0,是验证HExA效果核心场景。

4.3 单关卡自演化实验结果

4.3.1 Catapult弹弓关卡(最难关卡)
  • ReAct基线:8%成功率,平均22.9轮;
  • Reflexion:21.3%;
  • HExA无奖励技能:50.7%;
  • HExA带奖励(最优):67.3%,平均仅14.4轮,交互减少37%。
4. 开源Qwen模型提升效果
关卡基线ReActHExA提升后
Down to Earth Q3B8% → 24%
Down to Earth Q7B62% →72%
Two Body Q3B6%→14%
Two Body Q7B18%→34%
Catapult GPT-OSS120B0%→54%

4.4 跨关卡零样本迁移实验

仅用简单关卡技能、不跑目标关卡实验:

  1. Catapult(目标):源DTE+TBP+PTP,基线8%→44%(提升36个百分点);
  2. Falling Into Place:源DTE,20%→32%;
  3. Two Body:源DTE,18%→34%;
    证明提炼的是通用物理原理,非关卡专属坐标技巧。

4.5 消融实验关键结论

  1. 奖励标签至关重要:去掉奖励权重,Q7B两关平均下降8~10%成功率;
  2. 更新策略:Evolving融合优于Iterative重建,不会丢失前期有效技能;
  3. 离线预热初始化可大幅降低前期试错轮次;
  4. 同等交互样本下,HExA优于GRPO梯度微调(小样本场景梯度更新收敛慢)。

4.6 典型案例:Catapult种子45完整对比

  1. ReAct:25轮全部失败,反复微调同一块区域红球坐标,不懂更换发射支点;
  2. HExA:读取演化技能库,识别x=0.5是标准发射点、天花板撞击需左移至x=0.3,仅6轮成功,红球参数(0.3,0.9,1.5);
    技能库关键知识:
  • 默认发射x≈0.5;
  • r>1.5无法提升射程,仅改变发射角度;
  • 天花板碰撞不要加大半径,横向偏移x即可改变弹道;
  • 避免在同一x区间反复微调。

5 讨论、局限与未来工作

5.1 现有局限

  1. 评测仅局限2D物理仿真,未拓展机械、化学、生物等科学实验场景;
  2. 技能质量受基础LLM推理能力限制;
  3. 仅二元成败奖励,复杂多目标工业实验场景适配不足;
  4. 每轮Evolver推理存在额外上下文开销,大规模迭代速度受限。

5.2 未来研究方向

  1. 拓展多领域实验基准(数值仿真、化学合成、机器人操控);
  2. 优化技能压缩算法,降低提示词长度开销;
  3. HExA+梯度RL混合方案:先用上下文技能预热,再微调模型;
  4. 多智能体协同实验、跨领域通用技能迁移。

6 结论

本文提出HExA分层实验智能体,纯上下文、无需微调即可让LLM通过自主仿真实验沉淀分层可复用技能。配套Interphyre物理仿真基准提供完整实验工具链。
在最难物理关卡上,HExA将模型成功率从2%提升至77%,开源模型均获得稳定增益,且技能可零样本跨关卡复用。
相比梯度强化学习,HExA在少量交互样本下收敛速度更快,无需GPU训练,兼容所有闭源/开源LLM,为实验型AI智能体提供轻量化自改进新思路。

附录(精简核心内容)

附录A HExA完整数学与算法细节

包含完整循环伪代码、奖励函数、技能打分公式、五种变体超参配置。

附录B Interphyre全部工具签名

所有关卡查询、仿真、几何分析工具入参、返回格式完整清单,可直接复现实验脚本。

附录C 基线完整实现

  1. ReAct:标准Thought-Action-Observation单轮循环,25轮上限;
  2. Reflexion:最多两轮,失败生成反思文本注入第二轮提示;
  3. Direct:无任何工具,单次输出答案;
  4. GRPO:Qwen3B微调完整超参表。

附录E Catapult完整实验轨迹

  1. ReAct失败25轮完整思考+工具调用日志;
  2. HExA进化14轮后的完整技能库文本;
  3. HExA成功6轮完整交互记录,可直接复现实验。

附录H 各关卡标准系统提示词

Down to Earth、Two Body、Catapult等8关完整Prompt,复现实验直接复制使用。

附录I Evolver提炼提示模板

  1. 第一轮:成功/失败对比提取正向技能;
  2. 第二轮:从失败轨迹提取错误、局部有效技能;
  3. 跨关卡技能融合专用提示词。
http://www.jsqmd.com/news/1103942/

相关文章:

  • 【2026最新】Audacity免费版中文版下载安装使用全纪录:从打开到导出,一篇搞定
  • 2026年,靠谱的定量质控菌株供应商究竟是谁?
  • SQL优化_监管指标计算性能全维度优化方案
  • GEO 是什么?从 “关键词匹配” 到 “AI 信任” 的营销革命
  • 总部-门店素材协同:从统一上传到一键调用的落地指南
  • 三明 开店扫码点餐系统到底要花多少钱?别被坑了才知道!
  • 最小二乘法
  • 2026 网络安全零基础学习路线,保姆级实操教程可直接照搬
  • UE4SS:解锁虚幻引擎游戏的终极扩展工具 - 从零开始掌握游戏修改与Mod开发
  • 五、Prometheus安装nginx
  • 成都GEO优化公司选哪家?2026本地优质服务商推荐
  • 快速分子对接工具QuickVina 2:20倍加速的终极安装指南
  • 机器人技术:从自动化到具身智能,机器正走进现实
  • CCE Cash SOL混币实操:SOL跨链交换混币为BNB只需2-5分钟
  • 强烈推荐一个基于 .NET 8 开发的企业级 OAuth 2.0 / OpenID Connect 认证框架
  • 包装纸箱字符缺失、模糊、不清晰、颜色差异大智能检测方案 —— 昂德高 KEYTU 包装纸箱首件对版机落地应用价值分析
  • 企微SILK语音解析的工程痛点:流式解码管道、内存穿透与ASR异步转写架构
  • Wu.CommTool工业通信调试工具技术实现深度解析:基于C WPF的模块化架构设计
  • 2026数字化转型新锚点:4SAPI企业级大模型API中转网关赋能商业级AI规模化落地
  • 美团Longcat团队推VitaBench 2.0:揭示AI成“高情商助理”的短板与挑战
  • 基于ArcGIS Pro、R、INVEST等多技术融合下生态系统服务权衡与协同动态分析实践应用
  • LV3296与STM32F215ZG高精度信号采集系统设计
  • 个人网站每年盈利多少算是好网站?
  • 同一个App,报价5万到50万,到底差在哪?
  • 【安徽中医药大学本科毕业论文】基于医药学数据分析的糖尿病诊疗方案推荐系统开发
  • 精准避坑|OpenClaw 安装路径、解压、启动全套技巧
  • 3PEAK思瑞浦 TPA135A2-S5TR-S SOT23-5 电流信号检测放大器
  • 技术解析|音频裁剪的“最小单位”到底是什么?采样点、编码帧、视频帧全讲透
  • WinForm树型控件TreeView
  • 告别动辄卡壳的“维度地狱”:我是如何用 TRAE 像搭积木一样快速构建复杂流体网络结构的?