当前位置: 首页 > news >正文

PostTrainBench:LLM 代理能否自动化 LLM 后培训?

在过去的一年中,AI智能体在软件工程领域的能力已变得出奇地娴熟,这主要归功于其推理能力的提升。这引发了一个更深层次的问题:这些系统能否将其能力扩展到自动化进行人工智能研究本身?在本文中,我们探讨了后训练——这个将基础大语言模型转变为有用助手的关键阶段。

我们引入了PostTrainBench基准测试,用于评估大语言模型智能体在有限计算资源约束下(一块H100 GPU上运行10小时)自主执行后训练的能力。我们要求前沿智能体(例如,搭载Opus 4.6的Claude Code)优化基础大语言模型在特定基准测试上的性能(例如,Qwen3-4B模型在AIME上的表现)。

重要的是,我们不为智能体提供任何预定义的策略,而是赋予它们完全的自主权,以在网络上查找必要信息、运行实验并整理数据。我们发现,前沿智能体取得了实质性进展,但通常落后于领先提供商提供的指令调优模型:最佳智能体的成功率为23.2%,而官方指令调优模型为51.1%。

然而,在特定场景下,智能体可以超越指令调优模型:GPT-5.1 Codex Max在使用Gemma-3-4B模型时,在BFCL基准上达到了89%的成功率,而官方模型为67%。我们还观察到一些值得指出的失败模式。智能体有时会参与奖励黑客行为:在测试集上进行训练、下载现有的指令调优检查点而非自行训练,以及使用它们找到的API密钥未经授权生成合成数据。随着这些系统变得愈发强大,这些行为令人担忧,并凸显了进行严格沙箱隔离的重要性。总体而言,我们希望PostTrainBench能有助于追踪人工智能研发自动化的进展,并研究随之而来的风险。

1 引言

近年来,大语言模型的进步催生了一类新型人工智能系统:能够进行推理、编写代码、操作开发者工具,并在极少人工监督下执行长达数小时工作流程的自主智能体(Lin, 2026)。像Claude Code和Codex CLI这样的系统已开始在软件工程实践中引发大规模变革。随之而来的一个显而易见的问题是,这些智能体能否加速人工智能研究本身——这一长期以来依赖人类直觉和手动试错的领域。这一问题意义深远,因为更广泛地实现研发自动化被广泛视为在科学和技术领域取得突破性进展的关键瓶颈——这一进展可能在数年内而非数十年内实现(Amodei, 2024)。

为何关注后训练?
我们研究现代人工智能研发中一个核心且易于处理的部分:后训练。后训练指的是获取一个预训练的大语言模型,并通过监督微调、基于人类反馈的强化学习以及相关的对齐和能力增强方法,对其进行系统性改进的过程。之所以说这个阶段定义明确,是因为其改进效果可以直接通过标准化的评估(如AIME或HumanEval)来衡量,这些评估为微调后的性能提升提供了清晰的信号。其重要性同样不言而喻:后训练的进步是模型在安全性、指令遵循、工具使用和推理能力等方面取得重大提升的关键。尽管如此,目前尚无现成的基准测试来衡量前沿大语言模型智能体执行后训练本身的能力。现有的基准要么聚焦于狭窄的人工智能研发任务,要么只强调某些特定方面,例如复现已有论文(Chan et al., 2025; Wijk et al., 2024; Starace et al., 2025)。因此,我们需要一个端到端的测试平台,专门评估智能体通过后训练直接提升模型性能的能力。

我们的基准测试。
为填补这一空白,我们引入了PostTrainBench。在该基准测试中,每个评估任务都将一个基础大语言模型(Qwen3-1.7B, Qwen3-4B, SmolLM3-3B, 或 Gemma-3-4B)与一个供智能体优化的目标基准(AIME 2025, GSM8K, GPQA, HumanEval, BFCL, ArenaHard, 或 HealthBench)配对。智能体被赋予广泛的自主权:它们可以编写和执行代码、搜索和整理训练数据,并选择任何后训练策略。我们仅施加了为维护评估完整性所必需的最低限度约束。智能体不得在基准测试数据上进行训练,不得修改评估框架,并且只能对提供的特定基础模型进行微调。每次运行结束后,智能体提交训练好的检查点,该检查点将在基准测试的保留测试集上接受评估。我们在有限的计算资源约束下(在一块H100 GPU上运行10小时),评估了通过标准开发者工具运行且无需人工交互的前沿命令行智能体(例如Codex CLI、Claude Code和Gemini CLI)。

我们的发现。
我们发现,前沿智能体能够显著提升基础模型,但总体上仍落后于官方提供的指令调优后的大语言模型:最佳智能体的平均基准性能达到23.2%,而指令调优的基线模型为51.1%。然而,这种差距并非一成不变:在具有清晰评估信号的狭窄任务上,智能体可以超越人类工程师的表现。例如,GPT-5.1 Codex Max对Gemma-3-4B模型进行后训练后,在函数调用任务(BFCL)上达到了89%的成功率,超越了官方的指令调优模型(67%)。这些结果表明,当前的智能体能够成功执行聚焦型的后训练任务,但尚无法匹敌由专家科学家和工程师团队实现的广泛、通用的后训练效果。

http://www.jsqmd.com/news/490155/

相关文章:

  • ChatGPT Prompt Builder 深度解析:从原理到工程实践
  • Avalonia图像处理实战:如何用SkiaSharp实现WPF迁移中的高级滤镜效果
  • PasteMD与Qt集成:开发跨平台桌面客户端
  • Qwen3-14b_int4_awq Chainlit二次开发:添加思维链(CoT)引导式提问模板
  • LaTeX投稿实战:解决Information Sciences期刊源码上传难题(附详细操作截图)
  • 从零构建INAV开源飞行控制器固件:自定义开发全指南
  • 知识图谱实战:5分钟搞定链路预测模型选型(附16种SOTA方法对比)
  • ColorEasyDuino平台SG90舵机PWM控制与Arduino Servo库实战指南
  • 突破视频内容获取瓶颈:douyin-downloader全栈技术解密与实战指南
  • ChromeDriver版本匹配实战指南:从对应表到自动化测试避坑
  • 如何用Setfos的Scattering模块提升OLED效率?5个实战技巧分享
  • 避坑指南:OpenHarmony LiteOS-M内核定时器开发中的5个常见错误(基于Hi3863芯片实测)
  • 跟我学c++中级篇—c++17的filesystem主要功能
  • 芯手记 | 从零搭建 SWM341 开发环境:KEIL、JLINK 与资源全攻略
  • 无人驾驶实战:如何用MPC算法优化车辆轨迹跟踪(含Python代码示例)
  • 【前沿解析】2026年3月17日:英伟达Feynman芯片架构与NemoClaw开源智能体平台——算力底座与生态协同双重突破定义AI未来
  • PP-DocLayoutV3实操手册:处理翻拍照、光照不均、多栏竖排文档全攻略
  • Qwen3-14b_int4_awq部署避坑:常见OOM错误、加载超时、Chainlit连接失败解析
  • EVA-02模型效果实测:复杂操作系统概念的解释与对比
  • 电源工程师必备:用Mathcad Prime快速对比不同Q值谐振曲线的3种方法
  • 三菱Q系列PLC编程实战:从GX-Works2中文手册配置到常用指令速查
  • C++17并行计算实战:如何用std::reduce加速你的数据处理(附性能对比)
  • 【实践指南】GRACE工具箱RL06数据读取核心函数解析与调试
  • TortoiseSVN分支合并实战:从冲突解决到版本同步
  • Tinkercad进阶:解锁标尺工具的精准建模与高效布局
  • 5维突破内容采集:企业级视频解析技术全景指南
  • 2026年江浙沪合同纠纷律师事务所怎么选,专业推荐来帮忙 - 工业品网
  • gte-base-zh保姆级教程:从启动到调用,小白也能玩转文本嵌入
  • eBPF 动态 Map
  • “龙虾“创始人怒斥抄袭?腾讯回怼~