当前位置：首页 > news >正文

【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

news 2026/3/27 1:23:02

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉语言模型（LVLMs）取得了长足的进步，将视觉识别和语言理解交织在一起，生成的内容不仅连贯而且与语境相契合。尽管取得了成功，LVLMs仍然受困于物体幻觉问题，即模型生成看似合理实则不正确的输出，其中包含图像中不存在的物体。为了缓解这一问题，本文引入了视觉对比解码（VCD），这是一种简单且训练无关的方法，通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖，这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入，从而产生上下文准确的输出。本文的实验表明，VCD 无需额外训练或使用外部工具，在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外，VCD 在通用 LVLM 基准测试中也表现出色，凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。

1. 引言

大型视觉语言模型（LVLMs）已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分，得益于其能够从视觉输入生成语境相关的文本描述的能力，这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式，形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。

http://www.jsqmd.com/news/130165/

相关文章：

2025食品包装盒定做厂家,农产品礼盒厂家推荐厂家榜单 - 栗子测评

用dg broker执行switchover时，报0RA-01017

太原卤肉江湖：传统工艺与现代品牌的味蕾交响

2025无人机培训机构推荐:深圳性价比高的无人机培训学校合集 - 栗子测评

Windows系统文件msdtctm.dll丢失损坏下载修复方法

中山代理记账公司哪家好?2025本地代办注册公司实力排行榜 - 栗子测评

越南务工保险在哪里买：成本降60%！工头推高性价比案 - 品牌测评家

如何用Keysight E4990A阻抗分析仪搞定PCB材料Dk/Df测试

[251223 941mAh] 模拟赛（其实是月考）破防有感 4.0

2025空压机厂家排行权威榜单揭晓 - 栗子测评

【前瞻技术布局】咖啡机器人：具身智能技术首阶段探索与实践

Keithley 6517B静电计如何实现超微电流测量

Java游戏——贪吃蛇（代码逐行注释），新手小白收藏这篇就够了

2025激光焊接机哪家好分析:优质激光焊接机厂家测评 - 栗子测评

Xcode 在 iOS 上架中的定位，多工具组合

【踩坑记录】支付宝小程序 WebView 报错 my is not defined 的原因与解决方案

亚马逊AI全栈重组，对开发者与云市场意味着什么？

香港 Web3 每日必读：胜利证券对「中国内地」 IP 虚拟账户实施「禁止买入」限制，Uniswap 费用开关提案通过

分别从横向和纵向两种方法扩充lvs空间

动力电池气动点焊机：新能源汽车制造中的精密焊接解决方案

博途DriveLib库下载

Java小游戏——贪吃蛇（代码及注释），小白开发游戏，收藏这篇就够了

WPF HTTPS 通信示例使用说明

EC2创建逻辑卷lvs

基于XDMA实现的PCIE采集ADC数据方案

5大行业案例：AI智能体驱动业务需求到技术架构自动化映射的成功实践

艾体宝洞察 | Redis vs Valkey：解决 ElastiCache 的无序扩张与资源效率问题

毕业设计项目大数据二手房数据爬取与分析可视化

分子动力学的原理基础和内容详情！

100V｜10A大电流峰值电流模式同步降压转换器MSOP10封装