当前位置：首页 > news >正文

多智能体 + RL 强强联合！AT-GRPO 让 LLM 协作能力暴涨

news 2026/5/12 16:25:26

该文章通过引入一种为多智能体系统（Multi-Agent System）量身定制的强化学习算法 AT-GRPO 及其训练系统，成功地将“人多力量大”的协作优势与“刻意练习”的强化学习能力相结合，在规划、编码和数学等复杂任务上取得了惊人的性能飞跃。

摘要：多智能体系统（MAS）和强化学习（RL）都被广泛用于提升大语言模型（LLM）的智能体性能。MAS通过基于角色的编排增强任务专业化表现；RL则利用环境奖励训练更强的策略，如群体相对策略优化（GRPO）风格的优化。文章提出了AT-GRPO，包括：（i）一种为MAS量身定制的智能体-轮次分组RL算法，以及（ii）一个同时支持单策略和多策略训练的系统。在游戏、规划、编程和数学任务上的实验表明，AT-GRPO将准确率从单智能体RL基线的14.0–47.0%提升至96.0–99.5%。此外，它还提升了推理性能，在编程任务上平均提升3.87–7.62%，在数学任务上提升9.0–17.93%。

论文标题: "Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs"作者: "Yujie Zhao, Lanxiang Hu, Yang Wang"原文链接: "https://arxiv.org/pdf/2510.11062"代码链接: "https://github.com/pettingllms-ai/PettingLLMs"关键词: [Multi-Agent System, Reinforcement Learning, LLM Agent, Collaborative AI]

研究背景：为什么我们需要一个更强的智能体“天团”？

如今，让 LLM 成为能够解决实际问题的“智能体”（Agent）已经成了 AGI 探索之路上的主流方向。我们已经看到了两种主流的增强 Agent 能力的范式：

多智能体系统 (MAS)：俗称“群聊”模式或“套壳”，就像组建一个专家团队。我们给不同的 LLM 实例分配不同的角色（比如“程序员”、“测试员”、“产品经理”），让它们通过对话和协作来解决一个复杂问题。这种方式通过角色扮演和任务拆解，在很多场景下比单个 Agent 苦思冥想要有效得多。但它的天花板也比较明显——主要依赖于 Prompt 设计，LLM 本身的能力并没有得到“进化”。
强化学习 (RL)：就像给 Agent 请了个“私教”。通过让 Agent 在环境中与现实世界或模拟环境交互，根据任务完成情况给予奖励或惩罚，从而通过策略优化（比如大名鼎鼎的 PPO）来直接微调 LLM 的模型参数。这样训练出来的 Agent 在特定任务上会变得越来越专业。但单 Agent 训练在面对需要多步骤、多角度协作的复杂任务时，往往会陷入困境，容易“一条路走到黑”。

那么问题来了：我们能不能把这两者的优点结合起来？既有 MAS 的协作优势，又有 RL 的“进化”能力？

想法很美好，但现实很骨感。直接把现成的 RL 算法（比如 GRPO）套在 MAS 上，会遇到几个棘手的问题：

•算法层面的“不公平”：在 MAS 里，每个角色的 Agent 在每一轮（Turn）收到的指令（Prompt）都是不一样的。比如，程序员 Agent 收到的是“修复这个 Bug”，而测试员 Agent 收到的可能是“为这段代码生成单元测试”。GRPO 这类算法的核心是基于“在同一 Prompt 下采样多个不同回复进行比较”来计算优势函数（Advantage），现在 Prompt 都变了，直接比较就变得“不公平”，没法有效进行信用分配（Credit Assignment）。
•系统层面的挑战：训练一个 MAS 需要一个复杂的系统来支持。这个系统不仅要能协调多个 LLM 模型（可能每个角色一个独立模型）的并行推理和交互，还要能支持在线的、基于策略（On-policy）的参数更新。现有的很多 RL for LLM 的框架大多是为单 Agent 设计的，搞不定这种“一拖多”的复杂场面。

为了解决这些问题，来自加州大学圣地亚哥分校和英特尔的研究者们提出了STRONGER-MAS，核心是一个新的算法AT-GRPO和一个配套的训练系统。

方法总览：当 MAS 遇上为它量身定制的强化学习

STRONGER-MAS 的核心思想可以概括为：在 MAS 协作框架的基础上，引入一种改进的、适用于多智能体的分组强化学习算法，并搭建一个能支持这种训练模式的系统。

让我们通过论文的框架图来直观感受一下它的工作模式。

多智能体系统（MAS）在不同领域的工作流程

上图 (a) 部分生动地展示了一个“程序员-测试员”协作的例子。初始问题进来后，两个 Agent 开始多轮协作：程序员写代码，测试员写单元测试并执行，然后把失败的测试用例反馈给程序员，程序员再根据反馈修改代码……如此循环往复，直到所有测试通过。

而 (b) 部分则展示了这种 MAS 工作流可以灵活地应用到不同类型的任务上，比如：

•游戏/规划 (Game/Plan)：一个 Agent 负责规划（Planning），另一个 Agent 负责执行和调用工具（Tool Call）。
•代码 (Code)：一个 Agent 负责写代码（Code Synthesis），另一个负责构建和优化单元测试（Unit test Construction）。
•数学 (Math)：一个 Agent 负责推理（Reasoning），另一个负责调用计算工具（Tool call）来验证中间步骤。

STRONGER-MAS 要做的，就是让参与这个流程的每一个 Agent，都能在协作中通过强化学习不断提升自己的专业能力。

接下来，我们就来看看这背后最关键的创新。

关键结论

在深入技术细节之前，我们先用三点来概括一下这篇论文最核心的贡献和结论：

•提出 AT-GRPO 算法：这是一种“智能体和轮次分组”（Agent- and Turn-wise grouped）的强化学习算法。它巧妙地解决了在 MAS 中如何公平地进行分组比较和信用分配的问题，让强化学习能真正赋能于多智能体协作。
•设计并实现了 MAS 训练系统：论文配套实现了一个强大的训练系统，它能够支持不同 MAS 工作流的轨迹数据收集（Rollout），并且能同时对共享策略（所有 Agent 共用一个模型）和独立策略（每个 Agent 有自己的专属模型）进行 On-policy 的强化学习更新。
•在多个领域验证了显著的性能提升：实验结果非常亮眼。在需要长远规划的任务上，准确率从单智能体 RL 的 14%–47% 飙升到 96.0%-99.5%。在编程和数学任务上，也分别带来了平均 3.87%–7.62% 和 9.0%–17.93% 的性能增益。

深度拆解：AT-GRPO 算法与训练系统

现在，让我们一头扎进技术的海洋，看看 STRONGER-MAS 是如何施展魔法的。

1. 算法核心：AT-GRPO 如何解决“分组不公”问题？

我们前面提到，传统的 GRPO 算法要求在同一个 Prompt 下采样多个回复来构建一个“比较组”（Comparison Group）。但在 MAS 中，不同角色、不同轮次的 Agent，其 Prompt（上下文+指令）千差万别。怎么办呢？

AT-GRPO 的思路非常精妙，它重新定义了“什么是可以被放在一起比较的”。核心思想是：只有在相同的“状态-角色-轮次”三元组下产生的动作，才应该被归为一组进行比较。

为了实现这一点，论文提出了两种采样方案，如下图所示：

两种采样方案对比

•(a) 并行采样 (Parallel Sampling)：这是最朴素的想法，我们独立地跑很多次 MAS 模拟。但这样做，每个轨迹都是独立的，由于每一步的动作和状态都可能不同，我们无法找到一个公共的比较基准。因此，每个采样轨迹只能自己跟自己比，比较组的大小恒为 1，RL 也就无从谈起了。
•(b) 树状采样 (Tree Sampling)：这才是 AT-GRPO 的正确打开方式。从一个共同的初始状态S0开始，对于第一个 Agent 的第一个动作a0，我们不是只采样一个，而是采样K个不同的动作，从而“分叉”出K个不同的轨迹。在下一轮，对于这K个轨迹中的每一个，我们又在其对应的状态S1上，为下一个 Agent 的动作a1采样K次。这样，在 MAS 交互的每一步（agent i在turn t），我们都能得到一个大小为K的、源自相同历史状态的动作集合。这就构成了一个“公平”的比较组！

有了这个分组，AT-GRPO 就可以在每个组内计算相对优势（relative advantage），并据此更新策略了。简单来说，它通过一个唯一的哈希键hash(environment_id, turn_id, agent_id)来标识每一个“状态-角色-轮次”三元组，确保只有拥有相同哈希键的K个样本才会被放进同一个桶里进行比较。

2. 系统实现：支持复杂 MAS 训练的强大引擎

有了算法，还需要一个强大的系统来落地。论文设计的训练系统架构下图所示，它非常灵活，能够支持各种 MAS 训练需求。

MAS训练系统架构

这个系统主要由三部分构成：

•LLM 资源池 (GPU)：每个参与训练的 LLM 模型（可以是一个，也可以是多个）都独占一个或一组 GPU。每个池子里都有一个Rollout Worker（负责执行模型推理，生成动作）和一个Update Worker（负责计算损失并更新模型参数）。这种分离设计使得推理和训练可以高效并行。
•环境资源池 (CPU)：大量的Env Worker运行在 CPU 上，负责模拟 MAS 交互的环境，执行 Agent 的动作并返回新的状态和奖励。
•MAS 控制器：这是整个系统的大脑，它负责根据 MAS 的工作流（是串行还是并行？谁先行动？），向相应的Rollout Worker发送推理请求，接收生成的动作，再将其发送到Env Worker中执行，最后将收集到的轨迹数据（Trajectory Data）路由（ROUTING）到对应的Update Worker进行训练。

这个系统最牛的地方在于它的灵活性。它既能支持共享策略 (Shared Policy)的训练（所有 Agent 共用一个 LLM，所有轨迹数据都送给同一个 Update Worker），也能支持独立策略 (Per-role Policies)的训练（每个 Agent 都有自己的 LLM，轨迹数据被路由到各自的 Update Worker）。这为研究不同角色是否需要专属模型提供了极大的便利。

3. 训练动态：Agent 是如何“学有所成”的？

那么，在 AT-GRPO 的训练下，Agent 的行为具体发生了怎样的变化呢？下图为我们揭示了训练过程中的一些有趣动态。

训练变化

•奖励演化 (a)：在Plan-Path任务中，有两个角色：Tool Agent(负责生成路径规划代码) 和Plan Agent(负责最终决策)。从图 (a) 可以看到，随着训练的进行，两个 Agent 的标准化奖励（Standardized Reward）都在稳步提升，这说明它们都在各自的职责上变得越来越好。
•效率提升 (b)：图 (b) 展示了解决任务所需的平均轮次（Average Turns）的变化。无论是 1.7B 还是 8B 的模型，在 LiveCodeBench 和 AIME25 任务上，所需的交互轮次都随着训练而显著减少。这说明 Agent 不仅学会了如何解决问题，还学会了如何更高效地解决问题，减少了不必要的来回“扯皮”，协作越来越默契。

实验结果：效果好不好，数据说了算

说了这么多，最终效果如何？论文用详实的实验数据证明了 STRONGER-MAS 的强大。

1. 核心性能对比

首先，我们来看最直接的性能对比。下图就已经给了我们一个下马威。

LiveCodeBench和Sokoban任务上

在代码生成任务 (LiveCodeBench) 和游戏任务 (Sokoban) 上，蓝色的MAS+AT-GRPO曲线全程碾压红色的Single-agent+GRPO曲线，展示了巨大的性能优势。这说明，在 RL 的加持下，MAS 相比于单打独斗的 Agent，能力有了质的飞跃。

接下来，下表分别展示了在 1.7B 和 8B 规模的 Qwen3 模型上，STRONGER-MAS 在更广泛任务上的表现。

Qwen3 1.7B模型在各任务上的性能结果

Qwen3 8B模型在各任务上的性能结果

从这两张表中，我们可以清晰地看到：

•MAS > Single Agent：仅仅是使用 MAS 的 Prompting 策略（即MAS行），性能就普遍优于Single agent基线。
•MAS + RL >> Single Agent + RL：在双方都用上 RL 之后，MAS + AT-GRPO的性能远超Single agent + GRPO。特别是在 Plan-Path 这种长链规划任务上，准确率直接从个位数或十位数提升到了 90% 以上，堪称“屠杀”。
•独立策略 vs. 共享策略：对比最后两行，per-role policies(独立策略) 和shared policy(共享策略) 的表现各有千秋。在一些任务上（如 Code 和 Math 的部分子任务），为每个角色定制专属模型能带来更好的效果，这印证了“专业的人做专业的事”；而在另一些任务上，共享策略也能取得不错的结果，且成本更低。

2. 与 SOTA 方法的比较

为了证明自己的先进性，论文还将自己的方法与近期的其他多智能体强化学习（MARL）工作进行了比较。

与现有MARL框架的比较

无论是数学任务还是代码任务，无论是用 Phi-3-mini 还是 Qwen2-Coder-3B 作为底座模型，Ours (MAS+AT-GRPO)的表现都全面超越了之前的 SOTA 方法，如 MAPORL、MARFT 和 CURE。这充分说明了 STRONGER-MAS 框架的通用性和强大实力。

3. 消融实验与可扩展性分析

好的研究工作，不仅要证明自己行，还要解释清楚为什么行，以及潜力有多大。

角色特异性的重要性：下表的消融实验揭示了一个有趣的现象。

针对Plan-Path任务（Qwen3-1.7B模型）的消融研究

在Plan-Path任务中，如果我们将训练好的两个角色（Tool Agent和Plan Agent）的策略互换 (w/ Swapped Policies)，性能会急剧下降，从 96% 的准确率暴跌到 6%。这有力地证明了 RL 训练确实让每个 Agent 学到了与其角色高度相关的、不可替代的专业技能。它们不再是简单的通用 LLM，而是真正进化成了“规划专家”和“工具专家”。

智能体数量的影响：人越多就一定越好吗？下图探讨了 Agent 数量对性能的影响。

智能体数量影响

在数学推理任务 AIME24 上，随着团队中“推理者”（Reasoner）数量的增加，整个系统的准确率呈现出稳步上升的趋势。这表明，对于需要集思广益的复杂推理任务，通过增加 Agent 数量（特别是核心角色）确实能够带来性能上的收益，显示了该框架良好的可扩展性。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～