当前位置: 首页 > news >正文

Arbor框架:相同预算下性能比其他模型高2.5倍,助力AI编码代理学习进步

Arbor框架:保存长期研究经验,性能提升显著

研究人员称,一种名为Arbor的全新框架能保存长期研究任务中的假设、实验和经验教训,在相同预算下,其性能比其他模型高出2.5倍。(图片来源:Shutterstock - Wanan Wanan)

解决AI编码代理问题,推出Arbor框架

AI编码代理往往会孤立地开展研究,进行实验并产生新想法,但当上下文窗口重置时,这些想法就会被遗忘。这会造成token的浪费,因为模型会重复相同的错误,走进相同的死胡同。不过,新研究认为,需要调整的并非模型本身,而是整体的“树状结构”。为此,中国人民大学高瓴人工智能学院和微软研究院的数据科学家推出了Arbor,这是一种“持久假设树”,能帮助代理在长期研究过程中记住并完善所学知识。

Arbor框架的运行与效果

一个长期存在的协调器负责管理整个树状结构的研究策略,而短期执行器则会创建独立的工作树来测试不同的假设。随着实验结果的反馈,树状结构会不断更新,在整个实验过程中逐渐细化和收敛。在实际测试中,在相同预算下,该技术在现实世界的工程任务中,比标准AI编码代理的性能提升了两倍多。Info - Tech研究集团的研究总监Mahmoud Ramin表示:“Arbor会随着时间积累信息,让代理能够像人类一样,通过学习、适应并最终在过去所学的基础上不断进步。”

Arbor的运作机制

研究进展的关键因素

Arbor的开发者认为,仅靠长时间执行并不能保证研究取得进展。关键在于维持一种状态,将众多独立的尝试转化为“累积假设细化”。此外,他们指出,研究进展不应依赖人类监督者定期介入来指定下一步逻辑或解读先前试验的意义。为实现真正的自主,智能研究框架必须随着时间推移,保持实验、数据、结果和失败之间的联系。

满足的系统要求

Arbor的构建满足三个系统要求。首先,它必须能够分支,让子树测试所有可能合理的竞争假设。同时,无限制的分支可能会使整个框架陷入混乱,因此必须加以控制,保持结构有序。研究人员将其称为“连贯分支”。其次,基础设施必须将局部执行与整体策略分开。测试单个假设需要进行短期任务,如编辑、调试和评估。但这些任务不应“掩盖”基于整个运行过程中收集的证据所做的决策。最后,系统必须能够区分探索性改进和已验证的改进。这可以防止AI在试错过程中过度拟合,而是从底层模式中进行迭代学习。

持久性的核心作用

持久性是核心所在;这棵树将假设和想法、用于测试它们的代码或配置工件、实验证据(结果、指标)以及提炼的见解(例如“这个数据过滤器有帮助,但这个学习率调度器没有”)联系起来。项目启动后,短期执行的工作树运行代码、记录工作并收集指标。位于上方的长期协调器实际上充当了研究负责人的角色,密切关注过程、更新节点、选择“有前景的分支”、修剪或合并分支、传播可复用的经验教训,并决定接下来要探索哪些假设。Arbor的开发者写道:“因此,这棵树充当了系统的运营研究状态。它同时是搜索前沿、过去尝试的记忆以及已验证工件改进的审计轨迹。”

在新数据上超越Codex和Claude

测试过程与指标

为了测试这一过程的效果,研究人员在自主优化(AO)环境中对Arbor进行了评估:为代理提供一个初始研究工件(数据管道、测试工具或训练脚本),并要求它通过迭代实验提高其“保留性能”,且无需人工干预。保留性能是机器学习(ML)中的一个指标,用于评估模型在未见过的数据上的泛化能力。

测试任务与结果

这种基于树的架构在多个实际研究任务中进行了测试,包括模型训练(改进训练配方和超参数的能力)、测试工具工程(升级评估或训练测试工具的能力)和数据合成(为训练或评估生成更好数据的能力)。最终,在相同的资源预算下,Arbor的平均保留性能提升比Codex和Claude Code高出2.5倍。

研究结论与担忧

研究人员表示,结论是:与将相同模型作为“无记忆”编码代理运行相比,维护一个结构化、不断发展的假设树能带来更大的性能提升。Info - Tech的Ramin指出,Arbor最具创新性的特点是能够保持代理的记忆,并保留先前尝试和假设的相关数据。他还表示:“自主代理的下一步可能是随着时间积累证据。”不过,他也指出,这确实引发了对大规模稳健研究环境可审计性的担忧。“随着自主代理在无人监督的情况下执行任务的能力越来越强,企业需要了解代理采取特定行动或得出特定结论的方式和原因。”

关键词:人工智能、开发工具、软件开发

http://www.jsqmd.com/news/1048435/

相关文章:

  • 2026年6月暂养池定制,这些服务到位的厂家值得关注,海鲜暂养池/渔港中转暂养池,暂养池现货厂家口碑推荐 - 品牌推荐师
  • 广州政企写字楼怎么做商务办公楼宇隔音?临街办公降噪|静华轩企业商务办公楼宇定制隔音改造 - 维小达科技
  • 从 OpenClaw.NET 的 /loop 实现,看 Loop Engineering 如何从概念走向工程实践
  • 2026年6月最新百达翡丽中国官方售后客服服务电话及地址网点大全 - 百达翡丽服务中心
  • 前端加密PDF密码逆向分析:从网络抓包到Python算法复现实战
  • 新疆大学考研辅导班TOP推荐:核心指南与深度拆解 - michalwang
  • 2026年6月最新劳力士中国官方售后服务热线地址电话客服网点 - 劳力士服务中心
  • emWin嵌入式GUI开发:LISTVIEW与LISTWHEEL控件核心API详解与实战优化
  • MPC5644A引脚电气特性解析与汽车电子硬件设计实战
  • 北京播音主持艺考培训机构盘点 师资班型维度对比 - 互联网科技品牌测评
  • 2026年6月最新劳力士中国官方售后客户服务热线网点地址电话 - 劳力士服务中心
  • 2026年6月最新江诗丹顿中国官方售后客户服务电话热线地址网点 - 江诗丹顿服务中心
  • 沈阳各区黄金回收门店地址汇总|2026正规直营高价交易中心 - 奢侈品交易观察员
  • 如何永久备份QQ空间青春记忆:GetQzonehistory工具完整指南
  • 2026武汉黄金回收实测排名榜单|正规机构资质、价格、服务深度测评,这份避坑指南请收好 - 速递信息
  • 矩阵实验室:交互式可视化平台,让线性代数与算法学习触手可及
  • 2026年6月最新浪琴中国官方售后客户地址电话热线网点 - 浪琴服务中心
  • 2026年6月最新百达翡丽中国官方售后客服中心地址服务热线网点 - 百达翡丽服务中心
  • 豆包API调用优化:Seedance2.0与龙虾实现Token高效翻倍
  • 2026年6月最新百达翡丽中国官方售后客户热线地址网点电话 - 百达翡丽服务中心
  • Kali Linux 2023 SSH配置全攻略:Xshell与Finalshell实战连接
  • 2026 东莞专业汽车音响改装店推荐 科学调音 3D 定制门店深度解析 - 小熊打盹
  • 2026年6月黄金回收科普|看懂金价避套路,海口闲置黄金、奢侈品变现全指南 - 博客万
  • 2026年6月最新卡地亚中国官方售后客服服务地址热线网点电话 - 卡地亚服务中心
  • 嵌入式系统开发:SSM与PIT模块在MAC7200中的核心原理与工程实践
  • 深耕沈阳黄金回收市场,2026直营连锁品牌合扬实力出圈 - 奢侈品交易观察员
  • 专业级抖音批量下载解决方案:douyin-downloader完整技术指南
  • 2026年6月最新江诗丹顿中国官方售后电话网点服务热线客服地址 - 江诗丹顿服务中心
  • 2026年6月最新天梭中国官方售后客服服务热线网点地址及电话 - 天梭服务中心
  • DeepSeek-V4预览版:面向可控AI代理的架构重构与生产实践