当前位置：首页 > news >正文

Agent进阶实战：从只会答题到学会“挑毛病”（非常详细），收藏这一篇就够了！

news 2026/7/4 11:12:29

agent 训练的主流范式是模仿学习：给模型看专家的成功轨迹，让它学着做。但这里有一个根本性的缺陷——模型只学到了"该做什么"，却从未理解"为什么不该做别的"。它见过的全是正确答案，对错误状态毫无感知。一旦环境偏离训练分布，agent 就像背答案的学生遇到新题，只会机械重复，不会变通。

论文提出了 ACT（Agentic Critical Training），核心思路是：与其让模型模仿反思文本，不如通过 RL 训练它自主学会判断哪个动作更好。在三个 benchmark 上，RL w/ ACT 在所有任务中均取得最高性能，平均比模仿学习高 5.07 个百分点，比纯 RL 高 4.62 个百分点。更有意思的是，仅用 agent 任务数据训练的 ACT 模型，在 MATH-500 和 GPQA-Diamond 等通用推理 benchmark 上也有提升。

模仿反思和真正的反思，差在哪

此前有一种叫 Early Experience 的方法试图弥补模仿学习的不足：在环境中同时执行专家动作和替代动作，观察两者产生的下一状态，然后提示模型生成一段"反思"文本解释为什么专家动作更好，最后把这段反思混入训练数据，用标准的 next-token prediction 损失训练。

[Figure 1: 模仿反思与真正自主反思的对比] 左图展示 Early Experience 在环境中执行两种动作后生成反思文本，再通过 SFT 训练模型模仿该文本；右图展示 ACT 向模型呈现两个候选动作，通过 RL 训练模型选出更优者——由于只有选择结果被奖励，模型必须自主发展出关于动作质量的推理能力。

论文指出，Early Experience 本质上仍然是模仿学习：模型训练的目标是复现一段预先生成的固定文本，而非自主发现导向正确选择的推理过程。"反思"是模仿来的，不是自发产生的。

ACT 的具体做法

论文将问题建模为 POMDP（Partially Observable Markov Decision Process，部分可观测马尔可夫决策过程）。给定专家演示数据集，ACT 的数据构造分三步：(1) 对每个专家状态-动作对，从初始策略中采样 K 个候选动作；(2) 过滤掉与专家动作相同的候选；(3) 将专家动作与每个替代动作配对，形成对比样本。

[Figure 2: ACT + RL 训练流程概览] 阶段一为数据构造，从专家轨迹中提取状态-动作对并采样替代动作；阶段二为 ACT 训练，模型通过 GRPO 学习在随机排列的候选动作中识别更优者；阶段三为 RL 动作训练，利用 ACT 增强后的模型进一步训练直接动作生成。

训练分两个阶段，均使用 GRPO（Group Relative Policy Optimization，组相对策略优化）。第一阶段是 ACT 本身：将两个候选动作以随机顺序呈现给模型，训练它选出更好的那个。关键在于，唯一的监督信号是选择是否正确，不提供任何推理监督，模型必须自主发展出 CoT（Chain-of-Thought）推理来最大化奖励。第二阶段是 RL 动作训练：在 ACT 增强的基础上，进一步用 GRPO 训练直接动作生成。

奖励函数由三部分组成：精确匹配专家动作得 1.0 分；动作合法但不匹配得 0.1 分（部分奖励）；缺少正确格式标签扣 0.5 分。实验使用 Qwen3-8B 作为基础模型，学习率 2e-6，batch size 64，组大小 8，候选采样数 K=1，在 4 块 NVIDIA GH200 GPU 上训练。

三个 benchmark 的实验结果

论文在 ALFWorld（家庭机器人）、WebShop（网页购物）、ScienceWorld（科学实验）三个 benchmark 上评估。

[Table 1: Qwen3-8B 主要结果] ALFWorld 和 WebShop 报告成功率，ScienceWorld 报告下一动作预测准确率。RL w/ ACT 在所有任务上均取得最高分：ALFWorld ID 92.86%、OOD 88.06%，WebShop 33.80%，ScienceWorld 50.34%。

几个关键发现：RL w/ ACT 在所有 benchmark 上均为最优。ACT 叠加到 IL 上平均提升 5.07 个百分点，叠加到 RL 上平均提升 4.62 个百分点。与 Early Experience 相比，IL w/ ACT 平均高出 2.42 个百分点。在 ALFWorld 的 OOD 任务上，ACT 对 RL 的增益（3.73pp）大于 ID 任务（2.15pp），说明 ACT 学到的推理能力能泛化到未见过的任务配置。

[Figure 3: ALFWorld 上的失败恢复案例] 左图中 IL 模型遇到"Nothing happens"后陷入无限循环，重复失败动作超过 30 步直到终止；右图中 ACT 模型遇到同类失败后，通过内部推理诊断出根因（位置错误），跳出循环并发出正确的导航命令。

跨模型尺寸的数据复用

ACT 需要从策略中采样替代动作来构造对比数据，成本不低。论文测试了直接将 Qwen3-8B 采集的 ACT 数据用于训练 Qwen3-4B，无需重新采集。

[Table 2: 跨尺寸结果] 在 Qwen3-4B 上，所有 ACT 增强方法均优于对应的非 ACT 版本。RL w/ ACT 在 ID 达到 92.14%，OOD 达到 91.79%。

结果表明 ACT 数据的收益可以跨模型尺寸迁移，数据采集成本可以被摊薄。

通用推理能力的意外提升

论文将仅在 ALFWorld agent 数据上训练的模型直接评估 MATH-500 和 GPQA-Diamond。

[Table 3: 通用推理 benchmark 结果] ACT 在 MATH-500 上达到 87.73%，在 GPQA-Diamond 上达到 53.37%，均为最高。相比之下，IL 在 GPQA-Diamond 上从 51.52% 暴跌至 44.61%，下降 6.91 个百分点。

IL 出现了论文所称的"推理坍塌"：模型在短序列、动作密集的 agent 数据上做 SFT 后，覆盖了原有的深度推理能力。具体表现为两种模式——“漫无目的的游荡”（生成 3.5 倍长度的文本却得出错误答案）和"代数死循环"（超过 80000 字符的重复推导仍无法收敛）。

[Figure 4: ACT 在 GPQA-Diamond 上的自我验证行为] ACT 模型在推导出动能后，将每个选项代回能量守恒方程进行验证，系统性地排除不一致选项。基础模型完成了初始推导但未系统验证所有选项。

[Figure 12: 推理坍塌——漫无目的的游荡] 在高能物理阈值问题上，ACT 产生聚焦的推导（10K 字符），而 IL 生成 3.5 倍文本（38K 字符）却在模糊回忆和矛盾估计中游荡，最终猜错。

[Figure 13: 推理坍塌——代数死循环] 在概率问题上，ACT 识别出几何结构并简洁求解，而 IL 生成超过 80000 字符的循环代数操作后给出错误答案。

ACT 之所以能避免推理坍塌，是因为 RL 优化的是结果正确性而非行为模式——奖励信号不关心回复的格式或长度，只关心判断是否正确，因此模型在获得 agent 能力的同时完整保留甚至增强了原有的深度推理能力。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～