当前位置: 首页 > news >正文

Agent进阶实战:从只会答题到学会“挑毛病”(非常详细),收藏这一篇就够了!

agent 训练的主流范式是模仿学习:给模型看专家的成功轨迹,让它学着做。但这里有一个根本性的缺陷——模型只学到了"该做什么",却从未理解"为什么不该做别的"。它见过的全是正确答案,对错误状态毫无感知。一旦环境偏离训练分布,agent 就像背答案的学生遇到新题,只会机械重复,不会变通。

论文提出了 ACT(Agentic Critical Training),核心思路是:与其让模型模仿反思文本,不如通过 RL 训练它自主学会判断哪个动作更好。在三个 benchmark 上,RL w/ ACT 在所有任务中均取得最高性能,平均比模仿学习高 5.07 个百分点,比纯 RL 高 4.62 个百分点。更有意思的是,仅用 agent 任务数据训练的 ACT 模型,在 MATH-500 和 GPQA-Diamond 等通用推理 benchmark 上也有提升。

模仿反思和真正的反思,差在哪

此前有一种叫 Early Experience 的方法试图弥补模仿学习的不足:在环境中同时执行专家动作和替代动作,观察两者产生的下一状态,然后提示模型生成一段"反思"文本解释为什么专家动作更好,最后把这段反思混入训练数据,用标准的 next-token prediction 损失训练。

[Figure 1: 模仿反思与真正自主反思的对比] 左图展示 Early Experience 在环境中执行两种动作后生成反思文本,再通过 SFT 训练模型模仿该文本;右图展示 ACT 向模型呈现两个候选动作,通过 RL 训练模型选出更优者——由于只有选择结果被奖励,模型必须自主发展出关于动作质量的推理能力。

论文指出,Early Experience 本质上仍然是模仿学习:模型训练的目标是复现一段预先生成的固定文本,而非自主发现导向正确选择的推理过程。"反思"是模仿来的,不是自发产生的。

ACT 的具体做法

论文将问题建模为 POMDP(Partially Observable Markov Decision Process,部分可观测马尔可夫决策过程)。给定专家演示数据集,ACT 的数据构造分三步:(1) 对每个专家状态-动作对,从初始策略中采样 K 个候选动作;(2) 过滤掉与专家动作相同的候选;(3) 将专家动作与每个替代动作配对,形成对比样本。

[Figure 2: ACT + RL 训练流程概览] 阶段一为数据构造,从专家轨迹中提取状态-动作对并采样替代动作;阶段二为 ACT 训练,模型通过 GRPO 学习在随机排列的候选动作中识别更优者;阶段三为 RL 动作训练,利用 ACT 增强后的模型进一步训练直接动作生成。

训练分两个阶段,均使用 GRPO(Group Relative Policy Optimization,组相对策略优化)。第一阶段是 ACT 本身:将两个候选动作以随机顺序呈现给模型,训练它选出更好的那个。关键在于,唯一的监督信号是选择是否正确,不提供任何推理监督,模型必须自主发展出 CoT(Chain-of-Thought)推理来最大化奖励。第二阶段是 RL 动作训练:在 ACT 增强的基础上,进一步用 GRPO 训练直接动作生成。

奖励函数由三部分组成:精确匹配专家动作得 1.0 分;动作合法但不匹配得 0.1 分(部分奖励);缺少正确格式标签扣 0.5 分。实验使用 Qwen3-8B 作为基础模型,学习率 2e-6,batch size 64,组大小 8,候选采样数 K=1,在 4 块 NVIDIA GH200 GPU 上训练。

三个 benchmark 的实验结果

论文在 ALFWorld(家庭机器人)、WebShop(网页购物)、ScienceWorld(科学实验)三个 benchmark 上评估。

[Table 1: Qwen3-8B 主要结果] ALFWorld 和 WebShop 报告成功率,ScienceWorld 报告下一动作预测准确率。RL w/ ACT 在所有任务上均取得最高分:ALFWorld ID 92.86%、OOD 88.06%,WebShop 33.80%,ScienceWorld 50.34%。

几个关键发现:RL w/ ACT 在所有 benchmark 上均为最优。ACT 叠加到 IL 上平均提升 5.07 个百分点,叠加到 RL 上平均提升 4.62 个百分点。与 Early Experience 相比,IL w/ ACT 平均高出 2.42 个百分点。在 ALFWorld 的 OOD 任务上,ACT 对 RL 的增益(3.73pp)大于 ID 任务(2.15pp),说明 ACT 学到的推理能力能泛化到未见过的任务配置。

[Figure 3: ALFWorld 上的失败恢复案例] 左图中 IL 模型遇到"Nothing happens"后陷入无限循环,重复失败动作超过 30 步直到终止;右图中 ACT 模型遇到同类失败后,通过内部推理诊断出根因(位置错误),跳出循环并发出正确的导航命令。

跨模型尺寸的数据复用

ACT 需要从策略中采样替代动作来构造对比数据,成本不低。论文测试了直接将 Qwen3-8B 采集的 ACT 数据用于训练 Qwen3-4B,无需重新采集。

[Table 2: 跨尺寸结果] 在 Qwen3-4B 上,所有 ACT 增强方法均优于对应的非 ACT 版本。RL w/ ACT 在 ID 达到 92.14%,OOD 达到 91.79%。

结果表明 ACT 数据的收益可以跨模型尺寸迁移,数据采集成本可以被摊薄。

通用推理能力的意外提升

论文将仅在 ALFWorld agent 数据上训练的模型直接评估 MATH-500 和 GPQA-Diamond。

[Table 3: 通用推理 benchmark 结果] ACT 在 MATH-500 上达到 87.73%,在 GPQA-Diamond 上达到 53.37%,均为最高。相比之下,IL 在 GPQA-Diamond 上从 51.52% 暴跌至 44.61%,下降 6.91 个百分点。

IL 出现了论文所称的"推理坍塌":模型在短序列、动作密集的 agent 数据上做 SFT 后,覆盖了原有的深度推理能力。具体表现为两种模式——“漫无目的的游荡”(生成 3.5 倍长度的文本却得出错误答案)和"代数死循环"(超过 80000 字符的重复推导仍无法收敛)。

[Figure 4: ACT 在 GPQA-Diamond 上的自我验证行为] ACT 模型在推导出动能后,将每个选项代回能量守恒方程进行验证,系统性地排除不一致选项。基础模型完成了初始推导但未系统验证所有选项。

[Figure 12: 推理坍塌——漫无目的的游荡] 在高能物理阈值问题上,ACT 产生聚焦的推导(10K 字符),而 IL 生成 3.5 倍文本(38K 字符)却在模糊回忆和矛盾估计中游荡,最终猜错。

[Figure 13: 推理坍塌——代数死循环] 在概率问题上,ACT 识别出几何结构并简洁求解,而 IL 生成超过 80000 字符的循环代数操作后给出错误答案。

ACT 之所以能避免推理坍塌,是因为 RL 优化的是结果正确性而非行为模式——奖励信号不关心回复的格式或长度,只关心判断是否正确,因此模型在获得 agent 能力的同时完整保留甚至增强了原有的深度推理能力。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/513243/

相关文章:

  • 华为欧拉22.03系统下Nginx编译安装避坑指南(附常见错误解决方案)
  • Nanbeige 4.1-3B应用场景:用像素冒险终端做AI辅助小说创作工作流
  • TypeScript 类型安全的最后一道防线:从 any 到 unknown 的进阶之路
  • DAMOYOLO-S检测效果深度解析:YOLOv11架构下的性能对比与案例展示
  • 腾讯蓝鲸智云实战:如何用PaaS平台快速搭建企业级DevOps流水线
  • 口罩检测模型解释性分析:Grad-CAM可视化技术
  • FLUX.2-Klein-9B快速上手:3步完成图片编辑,无需复杂配置
  • Ostrakon-VL-8B真实效果:支持长上下文的多轮追问——‘这个货架缺什么?哪些品牌?’
  • 微信小程序实战:手把手教你从零搭建本地生活应用(附完整源码)
  • CentOS 系统下宝塔面板开机自启的Systemd服务配置详解
  • 低成本馈电保护电路设计:手把手教你用三极管和MOS管搭建(附原理图)
  • 李慕婉-仙逆-造相Z-Turbo应用案例:快速生成仙逆同人图与角色设计
  • 《算法题讲解指南:动态规划算法--路径问题》--9.最小路径和,10.地下城游戏
  • 嘎嘎降AI和论文去AI哪个值得买?从5个维度帮你选
  • Nanbeige 4.1-3B实战案例:为独立游戏开发者定制AI叙事引擎
  • 微信小程序开发需要多少钱?
  • Qwen3.5-9B惊艳呈现:产品包装盒360°图→材质识别→环保等级评估+回收建议
  • 如何同时降AI率和降重?一套操作解决两个问题
  • Android开发者必看:libcore目录结构解析与核心Java包优化指南
  • Linux驱动开发实战:手把手教你解析lt8619c.c摄像头驱动代码
  • Cadence Allegro铺铜全攻略:从基础操作到高级技巧(含DRC避坑指南)
  • 避坑指南:Qwen3-Embedding-4B性能优化与生产部署建议
  • Qwen3-32B-Chat私有部署实战教程:RTX4090D+CUDA12.4一键启动WebUI与API服务
  • Flare7K数据集实战:如何用Python快速实现夜间炫光去除(附完整代码)
  • MT7981B+AX3000M方案深度评测:这块5G工业路由PCBA,到底能扛住多复杂的场景?
  • 职场新人必看:如何用英文写一封专业的商务邮件(附模板)
  • Qwen3.5-9B稀疏专家模型部署教程:MoE架构在消费级GPU上的实操优化
  • KART-RERANK模型部署实战:内网穿透下的安全访问配置
  • LockBit 3.0勒索病毒逆向分析实战:从泄露的Builder到加密逻辑全解析
  • 手把手教你配置Ubuntu下的Minicom串口调试工具(附常见问题解决)