2025_NIPS_HyperMARL: Adaptive Hypernetworks for Multi-Agent RL
文章核心总结与翻译
一、主要内容
文章聚焦多智能体强化学习(MARL)中自适应协作的核心挑战——平衡参数共享的效率与行为多样性。现有全参数共享(FuPS)因智能体ID与观测耦合导致梯度干扰,难以实现专业化行为;无参数共享(NoPS)虽能支持多样性,但计算成本高、样本效率低。为此,提出HyperMARL方法,通过智能体条件超网络动态生成智能体专属参数,解耦观测与智能体条件梯度,在不修改学习目标、无需预设多样性水平或顺序更新的前提下,实现了专业化、同质化或混合行为的自适应。该方法在22个场景(最多30个智能体)中验证,性能优于NoPS、FuPS及6类主流基线方法,同时保持NoPS级别的行为多样性。
二、创新点
- 揭示核心问题:证实智能体ID与观测的耦合会显著加剧共享策略中的跨智能体梯度干扰,是FuPS难以实现专业化的关键原因。
- 提出HyperMARL架构:通过智能体条件超网络生成专属参数,明确解耦观测条件梯度与智能体条件梯度,从结构上缓解梯度干扰。
- 兼顾效率与多样性:无需额外复杂设计(如修改目标、预设多样性),仅通过共享超网络实现高效训练,同时达到NoPS级别的行为多样性。
- 强泛化能力:在异质性、同质性及混合任务中均表现优异,可扩展至30个智能体的复杂场景,验证了方法的通用性。
三、关键部分翻译(Markdown格式)
Abstract
自适应协作在多智能体强化学习(MARL
