当前位置: 首页 > news >正文

分享2篇最新Harness论文,一篇谷歌,一篇微软

来源:PaperAgent 本文约2000字,建议阅读5分钟本文介绍了 LLM 后训练的核心方法及 2025-2026 年前沿趋势。

在LLM Agent迅速发展的今天,如何为Agent设计合适的Harness(约束/马具)成为了一个关键问题。今天分享2篇最新论文分别从记忆系统和动作约束两个维度,提出了自动化的Harness进化方法。

  • 一篇来自微软的M⋆专注于让每个任务拥有专属的记忆Harness结构

  • 另一篇来自谷歌的AutoHarness则致力于自动生成代码级约束来防止非法动作。

说实话,我看完这两篇论文的第一反应是:AI研究风向真的变了:自进化Agent

想深入了解这个方向的小伙伴,分享了一份前沿论文合集&Code:自进化Skills、Agent系统、世界模型、Context、Harness……

一、M⋆:每个任务都值得拥有专属的记忆Harness


1.1 核心问题:固定记忆结构的局限性


当前LLM Agent的记忆系统往往采用"一刀切"的设计——无论是对话Agent使用的语义检索,还是代码Agent使用的技能系统,抑或是专业领域使用的结构化数据库。但问题是:为一个领域优化的记忆设计往往无法迁移到其他领域。

Figure 1: 不同任务进化的不同记忆结构示意图,展示了Legal、Conversation、Embodied AI、Healthcare四个领域各自独特的记忆Harness结构

如图1所示,对话任务(LoCoMo)需要实体关系图来追踪人物关系,法律查询(PRBench)需要关系型数据库存储判例,而具身智能(ALFWorld)则需要轨迹查找表。这些结构差异巨大,无法用一个通用方案解决。

1.2 方法:可执行程序进化


M⋆将记忆Harness表示为一个Python记忆程序,包含三个核心组件:

  • Schema:定义存储和检索的数据格式(使用Python dataclass)

  • Logic:定义后台操作(写入/读取逻辑,可调用向量数据库、SQL或LLM)

  • Instruction:定义Agent如何与记忆交互的提示词常量

Figure 2: M⋆系统 overview,展示了从Seed Memory Program到Program Pool,经过Evaluate、Reflect & Mutate、Quality Checks的迭代过程

系统采用反射式代码进化(Reflective Code Evolution):

  1. 验证循环采样:使用静态验证集和旋转验证集评估当前程序

  2. 编码Agent迭代:基于执行轨迹和失败案例,LLM分析根因并生成代码补丁

  3. 约束检查与自动修复:编译检查、冒烟测试、运行时约束(如返回不超过3000字符)

同时采用基于种群的搜索策略(Population-based Search)平衡探索与利用,通过softmax温度采样选择高得分程序进行变异。

1.3 实验结果


在四个截然不同的Benchmark上(LoCoMo对话、ALFWorld具身、HealthBench医疗、PRBench法律金融),M⋆在7/8个配置中取得了最佳表现:

Table 1: 主实验结果对比(部分数据),M⋆在多数任务上显著超越固定记忆基线

Figure 3: 进化轨迹图,展示了在多个benchmark上验证分数随迭代的变化,呈现"早期修复结构错误-中期大幅改进-后期精细调优"的三阶段模式

关键发现:

  • 结构多样性:不同任务进化出截然不同的记忆结构(见图4 t-SNE可视化)。例如ALFWorld最佳程序使用简单列表+LLM摘要,而LoCoMo使用SQL+ChromaDB的混合设计。

  • 任务特异性:跨任务迁移实验证明,将A任务进化出的记忆程序用于B任务,表现甚至不如通用基线,证明记忆结构必须与任务协同优化。

Figure 4: 程序嵌入空间可视化,不同颜色代表不同benchmark,显示各任务收敛于不同的结构聚类(LLM-Centric、Semantic Search、Hybrid Retrieval等)


二、AutoHarness:自动生成代码Harness防止非法动作


2.1 核心问题:LLM的"非法动作"困境


尽管LLM在代码生成和数学推理上表现卓越,但在严格定义的环境中(如棋类游戏),它们经常提出非法动作。在最近的Kaggle GameArena国际象棋比赛中,78%的Gemini-2.5-Flash失败都源于非法移动。

传统解决方法需要为每个游戏手工编写约束代码(harness),既费力又容易出错。AutoHarness提出让LLM自动生成并优化这些代码约束。

2.2 方法:树搜索+Thompson采样的代码合成


将Harness生成建模为程序搜索问题,使用Thompson采样引导的树搜索平衡探索(尝试不同逻辑结构)与利用(改进部分有效的Harness)。

Figure 1: Code-as-harness学习框架,展示树结构中节点(代码变体)通过Thompson采样选择,经评估器反馈后由Refiner生成新代码

支持三种Harness模式:

  1. harness-as-action-filter:生成合法动作候选集,由LLM排序选择

  2. harness-as-action-verifier(主要实验):LLM生成动作→代码验证合法性→非法则重试

  3. harness-as-policy:完全用Python代码实现策略,测试时无需LLM调用

关键机制:

  • 反馈驱动:环境返回动作是否合法及奖励信号

  • 迭代优化:基于错误案例和轨迹,LLM生成代码补丁(V4A格式)

  • 编译-修复循环:自动处理语法错误和运行时约束违反


2.3 实验结果


在TextArena的145个游戏(排除自由文本对话类)上进行了全面测试:

训练效率:平均14.5次树搜索迭代即可达到100%合法动作率,其中19/32个游戏在10次迭代内收敛。

Figure 2: 6个代表性游戏的启发式值(合法动作率)随合成迭代次数的变化曲线

对战性能(2P游戏):

  • Gemini-2.5-Flash + Harness vs Gemini-2.5-Pro:9/16胜率(总体胜率56.3% vs 38.2%)

  • 证明较小的模型配合专用Harness可击败更大模型

Figure 3: 在16个2P游戏中与Gemini-2.5-Pro对战的胜率/平局/败率柱状图(绿色为胜,红色为败)

单玩家游戏(1P): 平均奖励0.745,超越Gemini-2.5-Pro(0.707)和GPT-5.2(0.635)。

极限模式:Harness-as-Policy: 当让模型生成完整策略代码(而非仅验证器)时,在16个1P游戏上取得0.870平均奖励,超越GPT-5.2-High(0.844),且测试时成本几乎为零(无需LLM调用)。

Figure 5: 不同Agent在16个TextArena 1P游戏中的平均奖励对比,Harness-as-Policy(橙色)表现最佳


写在最后


回过头看这两篇论文,你会发现一个共同的趋势:大模型Agent的研究,正在从“如何让模型更聪明”转向“如何给Agent配一个更合适的Harness框架”。

顺着这个方向继续深入,需要读的论文远不止这两篇。也分享一份目前大模型Agent方向的120篇高质量论文(含源码)。

编辑:于腾凯

校对:林亦霖

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

http://www.jsqmd.com/news/704087/

相关文章:

  • 避坑指南:Qt QTableView冻结行列时,你可能遇到的5个诡异Bug及解决方法
  • 元学习:让AI快速掌握新任务的机器学习方法
  • 康复机器人开发笔记:用TwinCAT3和EtherCAT搞定无框力矩电机的第一步
  • 7种高级NLP特征工程技巧提升LLM嵌入效果
  • BERT模型解析:原理、变种与工业应用指南
  • Python 异步文件操作实践
  • gte-base-zh应用解析:在新闻聚合平台中实现内容去重
  • STC15单片机定时器不够用?实战解析蓝桥杯决赛中超声波与NE555的定时器分配策略
  • Snap.Hutao原神工具箱:用开源技术重新定义Windows平台游戏体验
  • Visual C++运行库终极解决方案:一键修复所有Windows软件兼容性问题
  • 从手动F5到全自动智能交付:VS Code Copilot Next 工作流配置进阶路径图(含6阶段能力评估矩阵)
  • Rust 性能优化的五个技巧
  • 2026届毕业生推荐的六大AI辅助写作网站实测分析
  • 如何快速掌握猫抓资源嗅探:技术爱好者的完整实战指南
  • 汽车诊断系统:故障代码读取与维修建议
  • 从ZLToolKit的线程池看C++11/14并发编程:semaphore、thread_group与模板技巧详解
  • 终极窗口调整指南:用WindowResizer强制改变任意窗口尺寸的完整教程
  • 3分钟掌握手机号码精准定位:location-to-phone-number开源工具完全指南
  • BetterNCM Installer:如何用Rust重构网易云插件管理生态?
  • 2026年新生如何集成OpenClaw/Hermes Agent?教程呈现
  • Qt国际化完全指南:从源码机制到工程实践
  • RuoYi AI 开源全栈式 AI 开发平台,为客服团队打造一个企业级私有化智能问答助手(一)
  • 3大YOLOv11多光谱目标检测实战痛点诊断与修复指南
  • 【MCP 2026边缘资源管理白皮书首发】:覆盖98.3%异构硬件的轻量级Agent协议栈设计实录
  • Neovim AI编程插件CodeCompanion.nvim:从适配器架构到实战配置
  • AI智能体自我进化框架:从静态执行到动态优化的工程实践
  • KDDockWidgets深度解析:Qt停靠布局的工业级解决方案
  • 深圳首推门店核心竞争力综合解析,品牌、技术、服务、口碑多维优势综述 - Reaihenh
  • 终极指南:5个简单步骤在电脑上免费畅玩Switch游戏
  • 除了花生壳,还有哪些免费/开源的内网穿透工具能帮你实现SSH远程办公?