Meta:对抗自博弈提升多模态推理能力
📖标题:DUEL: Adversarial Self-Play for Multimodal Reasoning
🌐来源:arXiv, 2605.24794v1
🛎️文章简介
🔸研究问题:如何在无需人工标注或外部奖励模型的情况下,提升视觉语言模型的细粒度视觉推理与鲁棒判别能力?
🔸主要贡献:论文提出DUEL框架,通过挑战者与求解者的对抗自博弈生成近邻难负例并校准验证,实现无外部监督的VLM自我进化。
📝重点思路
🔸初始化两个策略:从同一预训练VLM初始化挑战者和求解者,进行零和博弈。
🔸对抗配对声明生成:挑战者基于图像生成真实声明,并以此为条件生成最小语义扰动的难负例(近邻假声明),迫使模型依赖视觉证据而非语言捷径。
🔸校准声明验证:求解者对声明进行验证,引入长度归一化对数似然奖励,在二元结果监督之外保留基于序列置信度的连续优化信号,防止优势崩塌。
🔸自博弈策略优化:求解者采用分组归一化的GRPO算法更新,挑战者根据求解者的平均奖励与隐蔽性约束更新,形成自适应课程学习。
🔎分析总结
🔸DUEL在8个多模态推理基准上广泛且一致地提升性能,平均比基线提升1.4%,并在6个基准上达到最优。
🔸DUEL无需任何人工标注,其性能超越了所有无监督基线及需要人工标注的监督基线。
🔸跨架构实验表明,DUEL在四种不同VLM骨干网络上均有效,具备架构通用性。
🔸消融实验证明近邻难负例是性能提升的首要驱动因素,隐蔽约束和校准奖励也分别贡献了稳健性与信号丰富度。
🔸数据效率极高,仅用1K无标签图像即可接近全量数据性能,对抗自博弈是提升核心而非数据量。
💡个人观点
论文将VLM的自我进化重构为对抗性验证博弈,通过“近邻难负例”切断了模型依赖语言捷径的通道,强制其进行细粒度视觉溯源。
