当前位置：首页 > news >正文

[特殊字符] Agentic RL 的隐形天花板：一场关于「功劳算谁的」的豪赌

news 2026/6/8 7:32:14

DeepSeek-R1 能解国际奥数题，却搞不定一张机票。

2025年初，这个反差刷爆了朋友圈。一边是推理模型在数学题上杀疯了，另一边是 AI Agent 在真实世界里笨手笨脚——点个按钮能点错，填个表单能填串行，多步骤任务做到第三步就忘了第一步要干嘛。🤯

注释：DeepSeek-R1
DeepSeek-AI 于 2025 年 1 月发布的推理模型，通过纯强化学习（RL）训练获得强大的数学和代码推理能力，是 “Reasoning RL” 范式的代表。它不需要人工标注的逐步监督，仅靠最终结果的正确性就能自我改进。
为什么它重要：它证明了"稀疏奖励"在可验证领域可以work——答案对错一目了然。

你当然可以把这归咎于"模型还不够大"。这个解释太舒服了，舒服到它可能已经骗过了你自己。

独立研究者 Chenchen Zhang 在 2026 年 4 月发布的一份综述，像一盆冰水浇了下来。他梳理了 2024 到 2026 年初的47 种信用分配（Credit Assignment）方法，画出了一张清晰的地图——地图上的颜色分化得让人心惊：代表"推理 RL"的左半边已经亮起了成熟的绿灯，而代表"Agentic RL"的右半边，几乎还是一片漆黑。🌑

注释：信用分配（Credit Assignment）
想象你教一个新手厨师做一道复杂的菜。两小时后菜端上来，味道很差。你只知道"结果坏了"，但你不知道到底是切菜切坏了、火候大了、还是调料放错了。信用分配就是回答：在一长串动作中，到底是哪个动作对最终结果负主要责任？
在 RL 中，模型通常只在最后收到一个稀疏奖励（比如"任务成功/失败"）。信用分配的任务就是把这个最终奖励"拆解"到中间的每一个动作上，让模型知道该改哪里。

这就是那盆冰水要告诉你的：问题不是模型不够聪明，是训练信号太粗糙。就像一个学生每次考试只被告知总分，却永远拿不到错题分析——他只能盲猜自己哪里错了。

📊 一张地图，两个世界

Chenchen Zhang 的核心贡献，是把这 47 种方法扔进了一个二维分类体系：

粒度 \ 方法论	🎲 Monte Carlo	⏱️ Temporal Difference	🧠 Model-based	🤝 Game-theoretic	📡 Info-theoretic
Token 级	VinePPO	—	—	—	—
Segment 级	SPO, SCAR	—	—	Shapley值	—
Step 级	PURE, HICRA	PRM 系列	—	—	—
Turn 级	—	AgentPRM	ArCHer	C3, CCPO	CAPO
Multi-Agent	—	—	CARL	博弈论分配	—

注释：二维分类体系
粒度（Granularity）：奖励信号拆解的精细程度。Token 级精确到每个词，Segment 级到片段，Step 级到推理步骤，Turn 级到对话轮次，Multi-Agent 级到多个智能体之间的分工。
方法论（Methodology）：
Monte Carlo：通过多次采样估计期望回报，简单直接但方差大
Temporal Difference：结合当前估计和未来预测，类似"走一步看一步"
Model-based：学习环境模型来预测未来，用"想象力"辅助分配
Game-theoretic：用博弈论（如 Shapley 值）计算每个动作对团队的边际贡献
Info-theoretic：基于信息增益判断哪些动作提供了最有价值的信息

这张表里最刺眼的，是左上和右下之间的那条对角线断裂。🔍

在Reasoning RL（推理强化学习）的世界里，模型一次生成一条思维链，Tokens 数量在500 500500到30 000 + 30\,000+30000+之间。环境是确定的——你写一个推导步骤，下一步完全由你当前的输出决定。结果是可验证的——数学题答案对不对，一检查就知道。在这个相对"温柔"的战场上，Token 级和 Step 级的方法已经相当成熟。VinePPO、PURE、PRM 系列……它们各司其职，像一套精密的手术器械。

但在Agentic RL（代理强化学习）的世界里，一切都变了。模型要和真实环境进行多轮交互——点击、等待页面加载、读取新信息、再点击。Turn 数量轻松超过100 100100，总 Tokens 达到100 000 100\,000100000到1 000 000 1\,000\,0001000000。环境是随机的——同一个按钮点下去，这次弹出对话框，下次可能直接报错。状态是部分可观测的——模型看不到后台的 JavaScript 状态。中间步骤是不可验证的——你怎么判断"点击设置菜单"这一步本身是对是错？

复杂度跃迁 ∼ Agentic 交互长度 Reasoning 长度 ≈ 10 5 ∼ 10 6 10 3 ∼ 10 4 = 10 ∼ 100 × \text{复杂度跃迁} \sim \frac{\text{Agentic 交互长度}}{\text{Reasoning 长度}} \approx \frac{10^5 \sim 10^6}{10^3 \sim 10^4} = 10\sim100\times复杂度跃迁∼Reasoning长度Agentic交互长度≈103∼104105∼106=10∼100×

注释：Reasoning RL vs Agentic RL
维度 Reasoning RL Agentic RL
场景解数学题、写代码、逻辑推理操作电脑、使用手机、浏览网页
交互长度 单次生成500 500500–30 000 30\,00030000tokens 多轮交互100 000 100\,000100000–1 000 000 1\,000\,0001000000tokens
环境确定性（输出决定下一步）随机性（环境会不可预测地变化）
可验证性 中间步骤可验证（每步推导可对错）中间状态不可验证（"点击菜单"本身难判断对错）
信用分配难度 🟢 成熟 🔴 蛮荒

维度	Reasoning RL	Agentic RL
场景	解数学题、写代码、逻辑推理	操作电脑、使用手机、浏览网页
交互长度	单次生成500 500500–30 000 30\,00030000tokens	多轮交互100 000 100\,000100000–1 000 000 1\,000\,0001000000tokens
环境	确定性（输出决定下一步）	随机性（环境会不可预测地变化）
可验证性	中间步骤可验证（每步推导可对错）	中间状态不可验证（"点击菜单"本身难判断对错）
信用分配难度	🟢 成熟	🔴 蛮荒

Chenchen Zhang 的原话被他自己标上了证据级别：“从单次生成轨迹到多轮 Agent 交互，信用分配从一个优化便利变成了训练必需品。”这不是作者的臆测，这是[SE]——强实证支持的结论。

🧨 GRPO 信徒的盲点

“等等，GRPO 不是很火吗？DeepSeek-R1 不就是用它训出来的吗？”

对。GRPO（Group Relative Policy Optimization）在 2025 年确实火得一塌糊涂。它漂亮地解决了 Reasoning RL 里的信用分配问题——通过组内相对比较，不需要额外的 Critic 模型就能判断哪些推理步骤更好。

注释：GRPO（Group Relative Policy Optimization）
GRPO 是 DeepSeek-R1 使用的核心 RL 算法。它的聪明之处在于：不单独训练一个"裁判"（Critic）来判断每一步好不好，而是让模型一次性生成多条答案，然后比较同一组答案内部的相对优劣。好的答案中的步骤获得正反馈，差的获得负反馈。
类比：像一个班级考试后，老师不看绝对分数，而是看"这次考了班级前 10% 的同学，他们的答题思路有什么共同点"。

但 GRPO 的秘密在于——它高度依赖一个前提：同一道题的多个答案，其最终结果是可比的。在数学题里，这个前提天然成立。但在 Agentic 场景里，你让模型操作手机订机票，第一次它卡在登录页，第二次它成功到了支付页——这两个"最终奖励"怎么比？更重要的是，如果两次尝试在第 5 步就选择了不同的路径，之后的所有步骤都不具备可比性了。

这就是GRPO 家族的阿喀琉斯之踵。🔥

Chenchen Zhang 在综述中做了一个系统的 GRPO 家族元比较。结论很冷静：GRPO 及其变体在 Reasoning 场景下表现稳健，但在 Agentic 场景下，面对长 horizon、随机转移和部分可观测性时，性能急剧退化。这不是算法的问题，是问题本身的性质变了。

就像你用一把手术刀去砍木头。手术刀很锋利，但木头不是手术刀该切的东西。

🔮 LLM-as-Critic：一个只有这个时代才有的奇招

综述中最让我停下来的部分，是一个被称为“LLM-as-Critic”的新范式。

注释：LLM-as-Critic
传统 RL 需要人工设计奖励函数，或者用神经网络学习一个 Critic 来评估状态。但 LLM-as-Critic 的思路是：让另一个大语言模型（或模型自身）用自然语言来评价中间步骤的质量。
例如，模型操作手机时走到某一步，另一个 LLM 会看当前屏幕截图和已执行的动作，然后写一段评语：“当前步骤正确地打开了设置菜单，但还没有找到蓝牙选项，需要继续向下滚动。”
这种方法在经典 RL 中没有直接对应物——因为传统 RL 处理的是数值状态，而 LLM 可以处理语义丰富的文本和图像。

想想看：在经典强化学习里，你面对的是一个数值状态向量，Critic 网络输出一个标量价值。但 LLM 面对的中间状态是什么？是一张屏幕截图，是一段 HTML 代码，是一个弹窗提示。这些状态的"好坏"，只有用自然语言才能精确描述。

所以研究者干脆让 LLM 自己来当裁判。CAPO、SWEET-RL、LaRe、HCAPO、CriticSearch……这些方法的核心都大同小异：在中间步骤暂停，让另一个 LLM（或同一个 LLM 的另一套权重）写一段评语——“这个操作选对了”、“这里应该向下滚动而不是向上”、“当前页面还没有加载完成，需要等待”。

这种方法在经典 RL 中没有直接对应物。它是一个只属于 LLM 时代的独特能力。

但 Chenchen Zhang 给它标了[LS]——有限但暗示性的证据。也就是说，它看起来很有前途，但还远未被证明比传统的基于价值函数的方法更有效。

我赌这个方向会爆。但我也承认，这只是我的直觉。🎲

⚡ 最不舒服的推论

好，现在来到文章最锋利的地方。

这篇综述指向一个很多人不想听的结论：我们可能已经接近 Reasoning 能力的天花板了。不是模型不够大，而是"推理"这个任务本身，其信用分配问题已经被解决得差不多了。PRM、VinePPO、GRPO……工具箱已经足够丰富，剩下的只是工程优化。

但真正的瓶颈，从来不在于模型能不能解奥数题。真正的瓶颈在于：模型能不能在真实世界里，通过试错学会做事？

注释：为什么 Agentic 信用分配更难？
想象两个学习场景：
场景 A（Reasoning）：你给学生一本数学题，他写了一个解答过程。你可以检查每一步推导是否合法。如果最后答案错了，你回溯到第 3 步发现他用错了公式——问题定位精确。
场景 B（Agentic）：你让一个实习生用公司的 CRM 系统录入客户信息。两小时后他说"搞砸了"。到底哪里错了？是他在第 5 步点错了菜单？还是系统在第 8 步突然弹出了一个他没见过的新对话框？还是他其实做对了所有操作，只是客户信息本身就在原系统里缺失了？
Agentic 场景的信用分配难在：环境不是确定性的教科书，而是一个会随机变脸的复杂系统。

而要做到这一点，Agentic 信用分配必须先被攻克。不是"大概差不多"，而是要精确到：在 100 多轮交互中，第 37 步的那个点击，到底是 masterpiece 还是 disaster。

Chenchen Zhang 的综述里有一个数字让我背脊发凉：2026 年 3 月，仅在单一周内，就有三篇独立的反事实信用分配论文同时出现。这不是偶然。这是一个领域正在加速的信号。🚀

🎯 我赌的那句话

Agentic 信用分配将成为 2026–2027 年最重要的 AI 研究方向，其突破将决定哪些实验室能做出真正可用的 AI Agent。

这不是一个"值得关注"的安全判断。这是一个会被证伪的赌注。

如果一年后，某个 100B 参数的模型通过简单的 scale up 就在 Agentic 任务上达到了 95% 成功率，不需要任何精巧的信用分配机制——那我错了。我就是在制造恐慌，让创业者过度投资在复杂的 RL 训练上。

但如果一年后，最好的 Agentic 系统依然是那些在小模型上做了精细信用分配设计的团队——比如这篇综述里提到的 ArCHer、CARL、C3——那我的赌注就兑现了。

🏁 结尾不总结

这场豪赌的赌注很高。

因为如果我们解决不了 Agentic 信用分配，那所有的"AI Agent 将改变世界"的叙事，都可能只是另一场货物崇拜——我们建好了竹子的控制塔，戴上了椰子壳的耳机，站在跑道上挥动旗帜。

但飞机不会来。✈️🚫

除非我们搞清楚：在那些漫长的交互链条里，功劳到底算谁的。

📚 论文详细信息

标题: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
作者: Chenchen Zhang（Independent Researcher）
机构: Independent Researcher
arXiv ID: 2604.09459
发布日期: 2026 年 4 月 10 日（v1），2026 年 4 月 13 日（v2）
分类: cs.CL（Computation and Language）
GitHub 资源: Awesome-Credit-Assignment-in-LLM-RL
核心贡献:
系统综述 2024 年至 2026 年初的47 种信用分配方法（41 种核心方法 + 6 种辅助技术）
提出二维分类体系：按分配粒度（Token → Segment → Step → Turn → Multi-Agent）和方法论（Monte Carlo / TD / Model-based / Game-theoretic / Info-theoretic）组织
明确指出从 Reasoning RL 到 Agentic RL 的范式跃迁：前者信用分配已趋成熟，后者仍处早期
贡献三个可复用社区资源：结构化论文数据库、报告检查清单、基准协议规范
核心论点（带证据级别）:
[SE]信用分配是 LLM RL 的核心挑战，重要性随 Agentic 化而增长
[SE]Reasoning CA 已趋成熟（Token/Segment/Step 级方法有效）
[LS]Agentic CA 仍处于萌芽期（随机环境、部分可观测、超长 horizon 带来质性更难挑战）
[LS]LLM-as-Critic 是 LLM 时代独有的范式，无经典 RL 直接对应物
[AS]领域正在加速（2026 年 3 月单周三篇反事实 CA 论文同时出现）