当前位置：首页 > news >正文

多智能体视觉幻觉雪球效应与GNN解决方案

news 2026/7/30 11:49:34

在视觉语言模型（VLMs）的实际应用中，我们经常会遇到一个棘手的问题——模型会生成看似合理但与图像内容不符的描述。这种现象被称为"视觉幻觉"。当多个VLMs以智能体形式协作时，这个问题会呈现出指数级放大的趋势，形成所谓的"雪球效应"。

视觉幻觉本质上是一种模型自信地生成与输入视觉内容不符的文本输出的现象。在实际测试中，我们观察到几种典型表现：

这些错误在单智能体场景中已经足够令人困扰，而当多个智能体协作时，问题会变得更加复杂。第一个智能体的幻觉输出会成为后续智能体的输入，导致错误信息在系统中不断传播和放大。

在多智能体系统(MAS)中，视觉幻觉的雪球效应主要通过三个机制形成：

注意力漂移：随着交互轮次增加，智能体对视觉token的关注度逐渐下降。我们的实验数据显示，在第20轮交互时，视觉token的注意力分配比第1轮平均下降37.2%。
文本依赖：后续智能体过度依赖前面智能体生成的文本信息，而非原始视觉输入。这导致系统逐渐"脱离"实际图像内容。
错误累积：每个智能体的小错误会被后续智能体当作事实并进一步加工，最终导致完全偏离实际的输出。

我们在LLaVA-NeXT-7B模型上的测试表明，使用圆形拓扑结构时，20轮交互后的幻觉严重程度评分(HS)比单智能体情况高出2.8倍，充分证明了雪球效应的破坏性。

我们的解决方案核心是一个基于图神经网络(GNN)的视觉信息流(ViF)机制。该系统包含以下关键组件：

系统工作流程如下：

有效的视觉中继token需要满足两个条件：包含足够的语义信息，且在多层网络中保持稳定的注意力模式。我们定义了五种token选择策略：

实验数据显示，单峰token在抑制幻觉方面表现最优，在POPE基准上将准确率从91.0%提升到93.3%。这是因为它们代表了图像中最稳定、最显著的特征。

实际应用提示：单峰token的选择阈值ω设置为0.3时效果最佳。过低会引入噪声，过高则可能遗漏重要信息。

我们设计了一个分层的注意力调控机制。对于第l层的注意力矩阵A_l，特定类型token的注意力分配计算如下：

Allocation_token_type = ΣΣ A_l(i,j) * M_token_type(i,j)

其中M是指示矩阵，标识token类型。在实现中，我们对不同层采用不同的调整策略：

这种分层策略避免了粗暴的全局调整，既能抑制幻觉又不损害模型的语义理解能力。

由于Flash-Attention等优化技术不显式存储注意力分数，我们设计了基于Key范数的替代方案：

实验表明，这种方案与原始注意力分数方案有超过70%的重叠，且计算效率更高。在LLaVA-NeXT-7B模型上，Key-Norm+3缓冲token的方案甚至在某些指标上优于原方案。

系统训练分为两个阶段：

预训练阶段：

指令微调阶段：

这种设计既保证了视觉特征的稳定性，又使系统能适应不同的多智能体拓扑结构。

我们在8个主流基准上评估了方法效果：

综合评估基准：
- MME：14个子任务的感知与认知能力
- MMBench：20+能力维度的多选题
- MM-Vet：复杂视觉任务的6大核心能力
幻觉专项基准：
- CHAIR：标题中幻觉对象的比例
- POPE：对象存在性二元问题的准确率
- AMBER：生成式和判别式任务的幻觉评估
- MMHal-Bench：GPT-4自动评分的幻觉评估
- HallBench：专家手工构建的严格测试集

测试模型涵盖7B到34B参数的多个VLMs，包括LLaVA系列和Qwen系列的不同版本。