当前位置: 首页 > news >正文

多智能体 + RL 强强联合!AT-GRPO 让 LLM 协作能力暴涨

该文章通过引入一种为多智能体系统(Multi-Agent System)量身定制的强化学习算法 AT-GRPO 及其训练系统,成功地将“人多力量大”的协作优势与“刻意练习”的强化学习能力相结合,在规划、编码和数学等复杂任务上取得了惊人的性能飞跃。

摘要:多智能体系统(MAS)和强化学习(RL)都被广泛用于提升大语言模型(LLM)的智能体性能。MAS通过基于角色的编排增强任务专业化表现;RL则利用环境奖励训练更强的策略,如群体相对策略优化(GRPO)风格的优化。文章提出了AT-GRPO,包括:(i)一种为MAS量身定制的智能体-轮次分组RL算法,以及(ii)一个同时支持单策略和多策略训练的系统。在游戏、规划、编程和数学任务上的实验表明,AT-GRPO将准确率从单智能体RL基线的14.0–47.0%提升至96.0–99.5%。此外,它还提升了推理性能,在编程任务上平均提升3.87–7.62%,在数学任务上提升9.0–17.93%。

论文标题: "Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs"作者: "Yujie Zhao, Lanxiang Hu, Yang Wang"原文链接: "https://arxiv.org/pdf/2510.11062"代码链接: "https://github.com/pettingllms-ai/PettingLLMs"关键词: [Multi-Agent System, Reinforcement Learning, LLM Agent, Collaborative AI]

研究背景:为什么我们需要一个更强的智能体“天团”?

如今,让 LLM 成为能够解决实际问题的“智能体”(Agent)已经成了 AGI 探索之路上的主流方向。我们已经看到了两种主流的增强 Agent 能力的范式:

  1. 多智能体系统 (MAS):俗称“群聊”模式或“套壳”,就像组建一个专家团队。我们给不同的 LLM 实例分配不同的角色(比如“程序员”、“测试员”、“产品经理”),让它们通过对话和协作来解决一个复杂问题。这种方式通过角色扮演和任务拆解,在很多场景下比单个 Agent 苦思冥想要有效得多。但它的天花板也比较明显——主要依赖于 Prompt 设计,LLM 本身的能力并没有得到“进化”。
  2. 强化学习 (RL):就像给 Agent 请了个“私教”。通过让 Agent 在环境中与现实世界或模拟环境交互,根据任务完成情况给予奖励或惩罚,从而通过策略优化(比如大名鼎鼎的 PPO)来直接微调 LLM 的模型参数。这样训练出来的 Agent 在特定任务上会变得越来越专业。但单 Agent 训练在面对需要多步骤、多角度协作的复杂任务时,往往会陷入困境,容易“一条路走到黑”。

那么问题来了:我们能不能把这两者的优点结合起来?既有 MAS 的协作优势,又有 RL 的“进化”能力?

想法很美好,但现实很骨感。直接把现成的 RL 算法(比如 GRPO)套在 MAS 上,会遇到几个棘手的问题:

  • 算法层面的“不公平”:在 MAS 里,每个角色的 Agent 在每一轮(Turn)收到的指令(Prompt)都是不一样的。比如,程序员 Agent 收到的是“修复这个 Bug”,而测试员 Agent 收到的可能是“为这段代码生成单元测试”。GRPO 这类算法的核心是基于“在同一 Prompt 下采样多个不同回复进行比较”来计算优势函数(Advantage),现在 Prompt 都变了,直接比较就变得“不公平”,没法有效进行信用分配(Credit Assignment)。
  • 系统层面的挑战:训练一个 MAS 需要一个复杂的系统来支持。这个系统不仅要能协调多个 LLM 模型(可能每个角色一个独立模型)的并行推理和交互,还要能支持在线的、基于策略(On-policy)的参数更新。现有的很多 RL for LLM 的框架大多是为单 Agent 设计的,搞不定这种“一拖多”的复杂场面。

为了解决这些问题,来自加州大学圣地亚哥分校和英特尔的研究者们提出了STRONGER-MAS,核心是一个新的算法AT-GRPO和一个配套的训练系统。

方法总览:当 MAS 遇上为它量身定制的强化学习

STRONGER-MAS 的核心思想可以概括为:在 MAS 协作框架的基础上,引入一种改进的、适用于多智能体的分组强化学习算法,并搭建一个能支持这种训练模式的系统。

让我们通过论文的框架图来直观感受一下它的工作模式。

多智能体系统(MAS)在不同领域的工作流程

上图 (a) 部分生动地展示了一个“程序员-测试员”协作的例子。初始问题进来后,两个 Agent 开始多轮协作:程序员写代码,测试员写单元测试并执行,然后把失败的测试用例反馈给程序员,程序员再根据反馈修改代码……如此循环往复,直到所有测试通过。

而 (b) 部分则展示了这种 MAS 工作流可以灵活地应用到不同类型的任务上,比如:

  • 游戏/规划 (Game/Plan):一个 Agent 负责规划(Planning),另一个 Agent 负责执行和调用工具(Tool Call)。
  • 代码 (Code):一个 Agent 负责写代码(Code Synthesis),另一个负责构建和优化单元测试(Unit test Construction)。
  • 数学 (Math):一个 Agent 负责推理(Reasoning),另一个负责调用计算工具(Tool call)来验证中间步骤。

STRONGER-MAS 要做的,就是让参与这个流程的每一个 Agent,都能在协作中通过强化学习不断提升自己的专业能力。

接下来,我们就来看看这背后最关键的创新。

关键结论

在深入技术细节之前,我们先用三点来概括一下这篇论文最核心的贡献和结论:

  • 提出 AT-GRPO 算法:这是一种“智能体和轮次分组”(Agent- and Turn-wise grouped)的强化学习算法。它巧妙地解决了在 MAS 中如何公平地进行分组比较和信用分配的问题,让强化学习能真正赋能于多智能体协作。
  • 设计并实现了 MAS 训练系统:论文配套实现了一个强大的训练系统,它能够支持不同 MAS 工作流的轨迹数据收集(Rollout),并且能同时对共享策略(所有 Agent 共用一个模型)和独立策略(每个 Agent 有自己的专属模型)进行 On-policy 的强化学习更新。
  • 在多个领域验证了显著的性能提升:实验结果非常亮眼。在需要长远规划的任务上,准确率从单智能体 RL 的 14%–47% 飙升到 96.0%-99.5%。在编程和数学任务上,也分别带来了平均 3.87%–7.62% 和 9.0%–17.93% 的性能增益。

深度拆解:AT-GRPO 算法与训练系统

现在,让我们一头扎进技术的海洋,看看 STRONGER-MAS 是如何施展魔法的。

1. 算法核心:AT-GRPO 如何解决“分组不公”问题?

我们前面提到,传统的 GRPO 算法要求在同一个 Prompt 下采样多个回复来构建一个“比较组”(Comparison Group)。但在 MAS 中,不同角色、不同轮次的 Agent,其 Prompt(上下文+指令)千差万别。怎么办呢?

AT-GRPO 的思路非常精妙,它重新定义了“什么是可以被放在一起比较的”。核心思想是:只有在相同的“状态-角色-轮次”三元组下产生的动作,才应该被归为一组进行比较。

为了实现这一点,论文提出了两种采样方案,如下图所示:

两种采样方案对比

  • (a) 并行采样 (Parallel Sampling):这是最朴素的想法,我们独立地跑很多次 MAS 模拟。但这样做,每个轨迹都是独立的,由于每一步的动作和状态都可能不同,我们无法找到一个公共的比较基准。因此,每个采样轨迹只能自己跟自己比,比较组的大小恒为 1,RL 也就无从谈起了。
  • (b) 树状采样 (Tree Sampling):这才是 AT-GRPO 的正确打开方式。从一个共同的初始状态S0开始,对于第一个 Agent 的第一个动作a0,我们不是只采样一个,而是采样K个不同的动作,从而“分叉”出K个不同的轨迹。在下一轮,对于这K个轨迹中的每一个,我们又在其对应的状态S1上,为下一个 Agent 的动作a1采样K次。这样,在 MAS 交互的每一步(agent iturn t),我们都能得到一个大小为K的、源自相同历史状态的动作集合。这就构成了一个“公平”的比较组!

有了这个分组,AT-GRPO 就可以在每个组内计算相对优势(relative advantage),并据此更新策略了。简单来说,它通过一个唯一的哈希键hash(environment_id, turn_id, agent_id)来标识每一个“状态-角色-轮次”三元组,确保只有拥有相同哈希键的K个样本才会被放进同一个桶里进行比较。

2. 系统实现:支持复杂 MAS 训练的强大引擎

有了算法,还需要一个强大的系统来落地。论文设计的训练系统架构下图所示,它非常灵活,能够支持各种 MAS 训练需求。

MAS训练系统架构

这个系统主要由三部分构成:

  • LLM 资源池 (GPU):每个参与训练的 LLM 模型(可以是一个,也可以是多个)都独占一个或一组 GPU。每个池子里都有一个Rollout Worker(负责执行模型推理,生成动作)和一个Update Worker(负责计算损失并更新模型参数)。这种分离设计使得推理和训练可以高效并行。
  • 环境资源池 (CPU):大量的Env Worker运行在 CPU 上,负责模拟 MAS 交互的环境,执行 Agent 的动作并返回新的状态和奖励。
  • MAS 控制器:这是整个系统的大脑,它负责根据 MAS 的工作流(是串行还是并行?谁先行动?),向相应的Rollout Worker发送推理请求,接收生成的动作,再将其发送到Env Worker中执行,最后将收集到的轨迹数据(Trajectory Data)路由(ROUTING)到对应的Update Worker进行训练。

这个系统最牛的地方在于它的灵活性。它既能支持共享策略 (Shared Policy)的训练(所有 Agent 共用一个 LLM,所有轨迹数据都送给同一个 Update Worker),也能支持独立策略 (Per-role Policies)的训练(每个 Agent 都有自己的 LLM,轨迹数据被路由到各自的 Update Worker)。这为研究不同角色是否需要专属模型提供了极大的便利。

3. 训练动态:Agent 是如何“学有所成”的?

那么,在 AT-GRPO 的训练下,Agent 的行为具体发生了怎样的变化呢?下图为我们揭示了训练过程中的一些有趣动态。

训练变化

  • 奖励演化 (a):在Plan-Path任务中,有两个角色:Tool Agent(负责生成路径规划代码) 和Plan Agent(负责最终决策)。从图 (a) 可以看到,随着训练的进行,两个 Agent 的标准化奖励(Standardized Reward)都在稳步提升,这说明它们都在各自的职责上变得越来越好。
  • 效率提升 (b):图 (b) 展示了解决任务所需的平均轮次(Average Turns)的变化。无论是 1.7B 还是 8B 的模型,在 LiveCodeBench 和 AIME25 任务上,所需的交互轮次都随着训练而显著减少。这说明 Agent 不仅学会了如何解决问题,还学会了如何更高效地解决问题,减少了不必要的来回“扯皮”,协作越来越默契。

实验结果:效果好不好,数据说了算

说了这么多,最终效果如何?论文用详实的实验数据证明了 STRONGER-MAS 的强大。

1. 核心性能对比

首先,我们来看最直接的性能对比。下图就已经给了我们一个下马威。

LiveCodeBench和Sokoban任务上

在代码生成任务 (LiveCodeBench) 和游戏任务 (Sokoban) 上,蓝色的MAS+AT-GRPO曲线全程碾压红色的Single-agent+GRPO曲线,展示了巨大的性能优势。这说明,在 RL 的加持下,MAS 相比于单打独斗的 Agent,能力有了质的飞跃。

接下来,下表分别展示了在 1.7B 和 8B 规模的 Qwen3 模型上,STRONGER-MAS 在更广泛任务上的表现。

Qwen3 1.7B模型在各任务上的性能结果

Qwen3 8B模型在各任务上的性能结果

从这两张表中,我们可以清晰地看到:

  • MAS > Single Agent:仅仅是使用 MAS 的 Prompting 策略(即MAS行),性能就普遍优于Single agent基线。
  • MAS + RL >> Single Agent + RL:在双方都用上 RL 之后,MAS + AT-GRPO的性能远超Single agent + GRPO。特别是在 Plan-Path 这种长链规划任务上,准确率直接从个位数或十位数提升到了 90% 以上,堪称“屠杀”。
  • 独立策略 vs. 共享策略:对比最后两行,per-role policies(独立策略) 和shared policy(共享策略) 的表现各有千秋。在一些任务上(如 Code 和 Math 的部分子任务),为每个角色定制专属模型能带来更好的效果,这印证了“专业的人做专业的事”;而在另一些任务上,共享策略也能取得不错的结果,且成本更低。

2. 与 SOTA 方法的比较

为了证明自己的先进性,论文还将自己的方法与近期的其他多智能体强化学习(MARL)工作进行了比较。

与现有MARL框架的比较

无论是数学任务还是代码任务,无论是用 Phi-3-mini 还是 Qwen2-Coder-3B 作为底座模型,Ours (MAS+AT-GRPO)的表现都全面超越了之前的 SOTA 方法,如 MAPORL、MARFT 和 CURE。这充分说明了 STRONGER-MAS 框架的通用性和强大实力。

3. 消融实验与可扩展性分析

好的研究工作,不仅要证明自己行,还要解释清楚为什么行,以及潜力有多大。

角色特异性的重要性:下表的消融实验揭示了一个有趣的现象。

针对Plan-Path任务(Qwen3-1.7B模型)的消融研究

Plan-Path任务中,如果我们将训练好的两个角色(Tool AgentPlan Agent)的策略互换 (w/ Swapped Policies),性能会急剧下降,从 96% 的准确率暴跌到 6%。这有力地证明了 RL 训练确实让每个 Agent 学到了与其角色高度相关的、不可替代的专业技能。它们不再是简单的通用 LLM,而是真正进化成了“规划专家”和“工具专家”。

智能体数量的影响:人越多就一定越好吗?下图探讨了 Agent 数量对性能的影响。

智能体数量影响

在数学推理任务 AIME24 上,随着团队中“推理者”(Reasoner)数量的增加,整个系统的准确率呈现出稳步上升的趋势。这表明,对于需要集思广益的复杂推理任务,通过增加 Agent 数量(特别是核心角色)确实能够带来性能上的收益,显示了该框架良好的可扩展性。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/523391/

相关文章:

  • 解密高通相机HAL:CamX与CHI的协作机制及性能优化技巧
  • 计费结算系统中,多层防护体系来严防资损
  • 【IEEE 出版 | IEEE Xplore 、EI 检索】第二届智慧能源与控制工程国际学术会议(SECE 2026)
  • 2026年同城推广推荐:中小企业精准获客口碑服务商系统化评测指南 - 十大品牌推荐
  • 直接上干货。今天咱们玩点实际的——用MATLAB搞OFDM通信系统里的IQ不平衡仿真。这玩意儿在现实通信里能把人折腾得够呛,特别是用廉价射频前端的时候
  • CRM客户管理系统一年费用多少?CRM客户管理系统收费标准 - 纷享销客智能型CRM
  • 快速排序 (Quick Sort)
  • 5个最实用的VSLAM开源算法对比:从ORB-SLAM到DROID-SLAM,哪个更适合你的项目?
  • 2025-2026年十大麻将机品牌推荐:智能娱乐空间升级靠谱品牌选购指南 - 十大品牌推荐
  • ODConv (Omni-Dimensional Convolution):全维动态卷积,学习卷积核的四维注意力——YOLOv8 改进实战
  • 2026年十大麻将机品牌推荐:棋牌室商用高性价比品牌及用户口碑真实评价 - 十大品牌推荐
  • 基于Loki+Grafana的Docker容器日志监控实践指南
  • Step3-VL-10B多模态模型与Python爬虫实战:数据采集与智能分析
  • 主流模型调用(二)Open AI
  • 同城推广服务如何选择不踩坑?2026年靠谱推荐软件系统办公高效方案 - 十大品牌推荐
  • 2026年国内沙盘模型优质厂商:实力强、口碑好、靠谱可靠的专业选择 - 深度智识库
  • ‌LTST-C171TGKT‌ 是什么芯片? LED发光二极管 LITE-ON(光宝)进口芯片IC全新原装
  • 隐私计算实践:OpenClaw+Qwen3-32B的本地化数据处理方案
  • 圣女司幼幽-造相Z-Turbo应用实战:生成古风角色图,打造专属视觉内容
  • 手表保养如何选不踩坑?2026年靠谱推荐非官方授权点原厂级技术服务机构 - 十大品牌推荐
  • Docker零基础入门
  • 同城获客软件哪个靠谱?2026年推荐评测五大系统在本地服务业的实际应用 - 十大品牌推荐
  • Spring Boot项目集成Redisson 原始依赖与 Spring Boot Starter 的流程
  • 陕西企事业单位搬迁哪家靠谱?专业公司搬迁服务商深度测评 - 深度智识库
  • 利用有限元建模的悬臂梁 LQR 控制器研究附Matlab代码
  • 2026 私有化部署标杆厂商推荐:企业 / AI 知识库方案商、Deepseek 专属服务商、智能 BI 本地部署厂商一网打尽 - 品牌2026
  • 单细胞数据可视化进阶:用ggplot2打造炫酷UMAP密度图与等高线图
  • 广州市桓大皮革有限公司:服务深耕广东广州,以超纤皮革及其定制服务引领环保皮革新生态 - 十大品牌榜
  • 2025-2026年十大麻将机品牌推荐:智能娱乐空间升级靠谱品牌与案例解读 - 十大品牌推荐
  • 云南钢之友:2026年3月云南钢结构、钢管、型钢、钢板优选供应商 - 深度智识库