当前位置: 首页 > news >正文

【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入,从而产生上下文准确的输出。本文的实验表明,VCD 无需额外训练或使用外部工具,在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外,VCD 在通用 LVLM 基准测试中也表现出色,凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。

1. 引言

大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,得益于其能够从视觉输入生成语境相关的文本描述的能力,这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式,形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。

http://www.jsqmd.com/news/130165/

相关文章:

  • 2025食品包装盒定做厂家,农产品礼盒厂家推荐厂家榜单 - 栗子测评
  • 用dg broker执行switchover时,报0RA-01017
  • 太原卤肉江湖:传统工艺与现代品牌的味蕾交响
  • 2025无人机培训机构推荐:深圳性价比高的无人机培训学校合集 - 栗子测评
  • Windows系统文件msdtctm.dll丢失损坏 下载修复方法
  • 中山代理记账公司哪家好?2025本地代办注册公司实力排行榜 - 栗子测评
  • 越南务工保险在哪里买:成本降60%!工头推高性价比案 - 品牌测评家
  • 如何用Keysight E4990A阻抗分析仪搞定PCB材料Dk/Df测试
  • [251223 941mAh] 模拟赛(其实是月考)破防有感 4.0
  • 2025空压机厂家排行权威榜单揭晓 - 栗子测评
  • 【前瞻技术布局】咖啡机器人:具身智能技术首阶段探索与实践
  • Keithley 6517B静电计如何实现超微电流测量
  • Java游戏——贪吃蛇(代码逐行注释),新手小白收藏这篇就够了
  • 2025激光焊接机哪家好分析:优质激光焊接机厂家测评 - 栗子测评
  • Xcode 在 iOS 上架中的定位,多工具组合
  • 【踩坑记录】支付宝小程序 WebView 报错 my is not defined 的原因与解决方案
  • 亚马逊AI全栈重组,对开发者与云市场意味着什么?
  • 香港 Web3 每日必读:胜利证券对「中国内地」 IP 虚拟账户实施「禁止买入」限制,Uniswap 费用开关提案通过
  • 分别从横向和纵向两种方法扩充lvs空间
  • 动力电池气动点焊机:新能源汽车制造中的精密焊接解决方案
  • 博途DriveLib库下载
  • Java小游戏——贪吃蛇(代码及注释),小白开发游戏,收藏这篇就够了
  • WPF HTTPS 通信示例使用说明
  • EC2创建逻辑卷lvs
  • 基于XDMA实现的PCIE采集ADC数据方案
  • 5大行业案例:AI智能体驱动业务需求到技术架构自动化映射的成功实践
  • 艾体宝洞察 | Redis vs Valkey:解决 ElastiCache 的无序扩张与资源效率问题
  • 毕业设计项目 大数据二手房数据爬取与分析可视化
  • 分子动力学的原理基础和内容详情!
  • 100V|10A大电流峰值电流模式同步降压转换器MSOP10封装