当前位置: 首页 > news >正文

缓解模型关系幻觉(关系感知视觉增强)

论文文章:Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement

核心

针对LVLM中的动作关系幻觉,提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。

它解决的不是“图像里有没有某个物体”这种对象幻觉,而是:

主体 - 动作关系 - 客体 subject - action relation - object

例如:

woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard

论文认为,LVLM之所以容易产生动作关系幻觉,主要原因是:模型在生成答案时过度依赖语言先验,而对真正关键的视觉区域关注不足。论文观察到,虽然图像token在输入序列中占大多数,但模型分配给图像token的attention明显低于文本token,文本token获得的attention约为图像token的10到100倍。

流程图

一句话的解释:推理过程中模型更加关注视觉中的关系

Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头

Action-Contrastive Pair Construction:构建一张图片+两个对话(只有关系改变,控制变量可以看到后续哪个头变化大,那么这个头是对关系敏感)

LVLM Architecture:图片和文字编码和进入LVLM

Calculate ARS Score:统计每一层中每一个头的分数变化

Relation-Aware Visual Enhancement:用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注

Relation-Aware Visual Enhancement:选中top-k个对关系敏感的头,对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头,对他们关注的patch取后映射到图中

Attention Mask Construction and Enhancement:对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头,对他们关注的patch取平均后得到图中不关注的像素点,然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。

http://www.jsqmd.com/news/1103506/

相关文章:

  • BOM清单:SMT贴片产线上被低估的“指挥中枢”
  • 【真能学会】小鼠新生表皮角质形成细胞(NEK)原代细胞的分离、培养和鉴定protocol
  • 如何用Python命令行工具打造你的终极个人音乐库:netease-cloud-music-dl完全指南
  • UVA340 猜数字游戏的提示 Master-Mind Hints
  • Windows驱动管理终极指南:Driver Store Explorer完全使用教程
  • CR2032电池供应商有哪些?国内外主要CR2032生产厂家盘点
  • 租车系统源码:一个源码级租车创业解决方案
  • 2026 TCL华星光电标杆研学参访|全球显示科技智能制造考察预约指南
  • 30+平台文档一键保存:kill-doc如何让免费文档下载变得如此简单
  • WarcraftHelper终极指南:3步搞定魔兽争霸3所有历史兼容性问题
  • 2026深度实测|适合团队的编程助手权威推荐,AI技术债治理落地全方案
  • 如何用novelWriter实现高效小说创作:从零到完整作品的完整指南
  • Parsec虚拟显示器:为Windows系统打造完美的屏幕扩展解决方案
  • 罗技PUBG压枪宏:5分钟快速配置终极指南,告别后坐力烦恼
  • 如何在3小时内构建企业级可视化工作流平台:RuoYi-Flowable-Plus完整指南
  • 工业品短视频获客/自然流量锐减询盘下滑?工业品短视频获客本地推完整投放方案
  • 物联网安全连接实战:A5000与STM32F412ZG的TLS协议实现
  • 告别黑屏切换:Borderless Gaming如何重新定义Windows游戏体验
  • WarcraftHelper完整指南:彻底解决魔兽争霸3兼容性问题的终极免费工具
  • 收藏!大模型入门必知核心知识,小白程序员快速上手指南
  • 2026年AI聚合API中转站横评实测:六大平台横向对比,企业级生产环境下该怎么选择API聚合平台?
  • 拆解开题写作全流程:paperxie 分层式智能开题功能,打通科研起步卡点
  • 大模型驱动软件工程:小白也能学会的AI研发新范式(收藏版)
  • 基于PLC的信号交通灯(西门子S7-1200 PLC;串行通信;15000字;高质量;组态设计)
  • sap btp/sap integration suite中根据Service Instance创建destination,ContentAssemblyService疑似bug问题及解决
  • 企业知识图谱建设核心逻辑:跳出浅层优化误区,构筑AI时代长效行业竞争壁垒
  • SV660F转矩读取关键配置
  • 精密研磨螺杆的核心加工工序是什么
  • 【万字文档+源码】基于SpringBoot+Vue明星周边商城系统-可用于毕设-课程设计-练手学习-学习资料分享
  • PPTist:免费在线PPT制作工具的终极指南,让演示文稿创作变得如此简单