当前位置: 首页 > news >正文

AllenAI:终端智能体强化学习训练配方

📖标题:Tmax: A simple recipe for terminal agents
🌐来源:arXiv, 2606.23321v1

🛎️文章简介
🔸研究问题:如何构建简单有效的开源数据与强化学习配方以训练高性能小参数终端智能体?
🔸主要贡献:论文提出TMAX开源RL训练配方及包含1.46万环境的大规模数据集,使9B模型在Terminal-Bench上超越同类开源模型并逼近闭源前沿水平。

📝重点思路
🔸设计组合式合成数据生成管线,通过领域、技能、难度等九个结构化轴采样,显式控制任务复杂度与多样性,避免传统数据过于简单或分布不均的问题。
🔸引入分级验证器与非文本工件,利用阈值指标、模糊等价及多协议验证替代单一字符串匹配,并提供图片音频等输入让智能体通过终端工具处理,增加任务真实性。
🔸采用DPPO算法配合FP32精度语言模型头进行全异步RL训练,解决长程多轮交互中推理与训练logprob不一致导致的数值不稳定及训练崩溃问题。
🔸实施软过滤机制跳过零梯度样本,无需昂贵的教师模型验证即可保证生成数据的有效性,大幅降低大规模环境构建成本。
🔸使用mini-SWE-agent作为轻量级交互框架,保留中间思考过程,相比复杂原生终端接口更适合小模型学习与稳定训练。

🔎分析总结
🔸TMAX-9B在Terminal-Bench 2.0上达到27%通过率,优于32B以下所有开源模型及过往开源RL配方,性能接近Claude Haiku 4.5等闭源模型。
🔸基于TMAX数据的RL训练展现出强泛化性,不仅在不同测试框架下提升至少9分,还在SWE-Bench和AIME等非终端任务上取得显著进步,证明学到了通用能力而非过拟合。
🔸数据质量分析显示TMAX-15K在领域和技能分布上最均衡,且难度持续高于现有数据集,即使在8次采样下通过率仍最低,为RL提供了充足学习信号。
🔸训练稳定性实验表明,DPPO比GRPO更能防止奖励崩塌,大组大小和FP32 LM头对维持Qwen3.5等混合架构模型的训练稳定性至关重要。
🔸现有SFT数据可能损害已充分后训练模型的性能,直接RL或仅用高质量小规模SFT预热效果更佳,挑战了必须先SFT再RL的传统范式。

💡个人观点
论文将终端智能体训练从复杂的工程调优回归到“好数据+稳算法”的第一性原理,解决了合成数据同质化难题,优化长程交互的稳定性。

http://www.jsqmd.com/news/1119160/

相关文章:

  • 怎么量化一个 AI Agent 的好坏?面试官问「Agent 评测」时真正想听什么
  • 1、<入门>计算2个整数的和,这两个整数在1~100之间
  • 预约留资小程序制作工具测评:餐宝盈/BBWEYY/比文云/Landingi/Webnode(2026年7月更新)含零代码SAAS、AI编程、源码定制交付
  • 如何用四个节点搭建 ChatGPT 答案批量爬取工具:n8n + Scrapeless,无代码指南
  • 大语言模型能力评测:V3题库深度解析与实操指南
  • 为了优雅地下载网页视频,我顺手写了个开源扩展:FlowPick 诞生记
  • 大数据工程师必修课:核心技能全解析
  • 数学分析原理答案——第九章 习题25
  • Copilot开发实践:从集成部署到工作流优化
  • 有格调火锅店理性测评|行业避坑+科学选型指南
  • C语言题目初学(4)--字符串
  • ECP5702 PD Sink协议芯片在无电池照明产品中的应用
  • 11款米哈游架空文字字体:为你的设计项目注入游戏文化内涵
  • 千元电动牙刷核心技术解析:磁悬浮电机与智能算法
  • 大模型推理服务架构演进2026:Serverless、K8s与边缘部署的工程选型
  • C语言箭头操作符(->)完全教程:用法与实例
  • PyTorch 2.0 反向传播实战:从计算图到梯度下降的 5 步代码实现
  • PHP 5.x + MySQL SQL注入实战:3种经典绕过手法与防御代码对比
  • 2026年7月Agent开发面试题 -- 基础篇
  • 1940-2025年全国多级行政单元逐时气象数据
  • VScode SSH 免密连接 一键脚本
  • Holoscan SDK 概述
  • 深入解析pytest_terminal_summary钩子:从原理到实战的测试报告终极定制指南
  • 建筑外立面缺陷智能识别:YOLOv26驱动下的多类损伤检测数据集与实战10748期
  • Java毕设项目:基于 SpringBoot+Vue 的动漫资讯更新与浏览管理系统的设计与实现 动漫爱好者作品投稿与社区交流平台 (源码+文档,讲解、调试运行,定制等)
  • TVA在具身智能技术演进中的独特价值(9)
  • MySQL 全套 SQL 语句系统精讲|语法规范、性能避坑、企业级实战与学习复盘
  • AI Agent记忆系统深度解析:从短期上下文到长期知识库的架构设计
  • 2026年7月Agent开发面试题 -- 进阶篇
  • 个人AI聊天机器人真的必要吗?三重过滤网评估技术适配度