当前位置：首页 > news >正文

AllenAI：终端智能体强化学习训练配方

news 2026/7/4 3:24:49

📖标题：Tmax: A simple recipe for terminal agents
🌐来源：arXiv, 2606.23321v1

🛎️文章简介
🔸研究问题：如何构建简单有效的开源数据与强化学习配方以训练高性能小参数终端智能体？
🔸主要贡献：论文提出TMAX开源RL训练配方及包含1.46万环境的大规模数据集，使9B模型在Terminal-Bench上超越同类开源模型并逼近闭源前沿水平。

📝重点思路
🔸设计组合式合成数据生成管线，通过领域、技能、难度等九个结构化轴采样，显式控制任务复杂度与多样性，避免传统数据过于简单或分布不均的问题。
🔸引入分级验证器与非文本工件，利用阈值指标、模糊等价及多协议验证替代单一字符串匹配，并提供图片音频等输入让智能体通过终端工具处理，增加任务真实性。
🔸采用DPPO算法配合FP32精度语言模型头进行全异步RL训练，解决长程多轮交互中推理与训练logprob不一致导致的数值不稳定及训练崩溃问题。
🔸实施软过滤机制跳过零梯度样本，无需昂贵的教师模型验证即可保证生成数据的有效性，大幅降低大规模环境构建成本。
🔸使用mini-SWE-agent作为轻量级交互框架，保留中间思考过程，相比复杂原生终端接口更适合小模型学习与稳定训练。

🔎分析总结
🔸TMAX-9B在Terminal-Bench 2.0上达到27%通过率，优于32B以下所有开源模型及过往开源RL配方，性能接近Claude Haiku 4.5等闭源模型。
🔸基于TMAX数据的RL训练展现出强泛化性，不仅在不同测试框架下提升至少9分，还在SWE-Bench和AIME等非终端任务上取得显著进步，证明学到了通用能力而非过拟合。
🔸数据质量分析显示TMAX-15K在领域和技能分布上最均衡，且难度持续高于现有数据集，即使在8次采样下通过率仍最低，为RL提供了充足学习信号。
🔸训练稳定性实验表明，DPPO比GRPO更能防止奖励崩塌，大组大小和FP32 LM头对维持Qwen3.5等混合架构模型的训练稳定性至关重要。
🔸现有SFT数据可能损害已充分后训练模型的性能，直接RL或仅用高质量小规模SFT预热效果更佳，挑战了必须先SFT再RL的传统范式。

💡个人观点
论文将终端智能体训练从复杂的工程调优回归到“好数据+稳算法”的第一性原理，解决了合成数据同质化难题，优化长程交互的稳定性。

查看全文

http://www.jsqmd.com/news/1119160/