当前位置：首页 > news >正文

Meta：对抗自博弈提升多模态推理能力

news 2026/7/31 13:59:42

📖标题：DUEL: Adversarial Self-Play for Multimodal Reasoning
🌐来源：arXiv, 2605.24794v1

🛎️文章简介
🔸研究问题：如何在无需人工标注或外部奖励模型的情况下，提升视觉语言模型的细粒度视觉推理与鲁棒判别能力？
🔸主要贡献：论文提出DUEL框架，通过挑战者与求解者的对抗自博弈生成近邻难负例并校准验证，实现无外部监督的VLM自我进化。

📝重点思路
🔸初始化两个策略：从同一预训练VLM初始化挑战者和求解者，进行零和博弈。
🔸对抗配对声明生成：挑战者基于图像生成真实声明，并以此为条件生成最小语义扰动的难负例（近邻假声明），迫使模型依赖视觉证据而非语言捷径。
🔸校准声明验证：求解者对声明进行验证，引入长度归一化对数似然奖励，在二元结果监督之外保留基于序列置信度的连续优化信号，防止优势崩塌。
🔸自博弈策略优化：求解者采用分组归一化的GRPO算法更新，挑战者根据求解者的平均奖励与隐蔽性约束更新，形成自适应课程学习。

🔎分析总结
🔸DUEL在8个多模态推理基准上广泛且一致地提升性能，平均比基线提升1.4%，并在6个基准上达到最优。
🔸DUEL无需任何人工标注，其性能超越了所有无监督基线及需要人工标注的监督基线。
🔸跨架构实验表明，DUEL在四种不同VLM骨干网络上均有效，具备架构通用性。
🔸消融实验证明近邻难负例是性能提升的首要驱动因素，隐蔽约束和校准奖励也分别贡献了稳健性与信号丰富度。
🔸数据效率极高，仅用1K无标签图像即可接近全量数据性能，对抗自博弈是提升核心而非数据量。

💡个人观点
论文将VLM的自我进化重构为对抗性验证博弈，通过“近邻难负例”切断了模型依赖语言捷径的通道，强制其进行细粒度视觉溯源。

查看全文

http://www.jsqmd.com/news/993394/