当前位置: 首页 > news >正文

Concept-Enhanced Multimodal RAG Towards Interpretable and Accurate Radiology Report Generation

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Authors:Marco Salmè, Federico Siciliano, Fabrizio Silvestri, Paolo Soda, Rosa Sicilia, Valerio Guarrasi

Deep-Dive Summary:

概念增强的多模态 RAG:迈向可解释且准确的放射学报告生成

摘要

利用视觉语言模型(VLMs)进行放射学报告生成(RRG)有望减轻文档负担、提高报告一致性并加速临床工作流程。然而,由于缺乏可解释性以及容易产生与影像证据不符的“幻觉”发现,其临床应用仍然受限。现有的研究通常将可解释性和准确性视为独立的目标,基于概念的可解释性技术主要关注透明度,而检索增强生成(RAG)方法则通过外部检索针对事实性依据(factual grounding)。我们提出了概念增强型多模态 RAG(CEMRAG),这是一个统一的框架,它将视觉表示分解为可解释的临床概念,并将其与多模态 RAG 集成。该方法利用丰富的上下文提示进行 RRG,同时提高了可解释性和事实准确性。在 MIMIC-CXR 和 IU X-Ray 数据集上针对多种 VLM 架构、训练方案和检索配置进行的实验表明,在临床准确性指标和标准 NLP 度量上,该方法始终优于传统 RAG 和仅基于概念的基准。这些结果挑战了公认的可解释性与性能之间的权衡假设,表明透明的视觉概念可以增强而非损害医学 VLM 的诊断准确性。我们的模块化设计将可解释性分解为视觉透明度和结构化语言模型调节,为构建临床可信的 AI 辅助放射学提供了一条原则性路径。项目页面见 https://github.com/marcosal30/cemrag-rrg。

关键词:放射学报告生成,视觉语言模型,医学影像,可解释性,检索增强生成,多模态 AI

2 相关工作

2.1 视觉语言模型的可解释性

VLMs 的可解释性对于临床部署至关重要。目前的方法分为隐式解释机制(如理性生成、思维链推理)和显式概念表示。隐式方法往往只是“看似合理”的辩解,而非计算机制的真实反映。显式概念表示(如概念瓶颈模型)虽然透明,但需要大量人工标注。

最近的研究(如 SpLiCE)通过将视觉表示分解为特定领域词汇表中的临床概念,实现了可扩展且透明的解释,而无需牺牲表示的灵活性。

2.2 医学领域的多模态检索增强生成

多模态 RAG 通过在现有临床知识中锚定生成过程,缓解了医学 VLM 中的事实幻觉。在 RRG 领域,MMed-RAG 和 RULE 等框架通过提供具体的临床示例显著减少了幻觉。

尽管 RAG 提供了间接的可解释性,但这种透明度是无源的。检索通常通过全局相似性匹配进行,缺乏关于应优先考虑哪些解剖结构或病理模式的显式指导。

2.3 局限性与动机

现有的方法将透明度和事实准确性视为分离的目标。本研究的中心假设是:可解释的视觉概念可以作为语义引导机制,通过引导检索和生成向输入图像中的临床相关内容靠拢,同时增强透明度和准确性。

4 实验设置

4.1 数据集

  • MIMIC-CXR:大规模数据集,包含超过 370,000 张胸部 X 光片。我们使用了 156,344 张正面视图。
  • IU X-ray:较小的数据集,包含 7,470 张图像。我们使用了 3,307 张正面投影。

4.2 模型配置与实验条件

我们使用CXR-CLIP作为基础对齐模型,并采用SpLiCE进行概念提取。
评估了两种架构配置:

  1. LLaVA-Med:视觉编码器和 LLM(Mistral-7B)均经过医学预训练。
  2. CXR-CLIP + Mistral-7B:使用医学预训练的 CLIP 配对基础 Mistral-7B。

我们评估了四种提示策略:

  • 仅图像 (Image-Only):仅使用视觉特征。
  • 概念 (Concepts):加入从 SpLiCE 提取的 5 个医学关键词。
  • 多模态 RAG (Multimodal RAG):加入 3 个相似案例的报告。对于 MIMIC-CXR,进行域内检索;对于 IU X-ray,由于数据量小,进行跨域检索(从 MIMIC-CXR 中检索)。

Original Abstract:Radiology Report Generation (RRG) through Vision-Language Models (VLMs) promises to reduce documentation burden, improve reporting consistency, and accelerate clinical workflows. However, their clinical adoption remains limited by the lack of interpretability and the tendency to hallucinate findings misaligned with imaging evidence. Existing research typically treats interpretability and accuracy as separate objectives, with concept-based explainability techniques focusing primarily on transparency, while Retrieval-Augmented Generation (RAG) methods targeting factual grounding through external retrieval. We present Concept-Enhanced Multimodal RAG (CEMRAG), a unified framework that decomposes visual representations into interpretable clinical concepts and integrates them with multimodal RAG. This approach exploits enriched contextual prompts for RRG, improving both interpretability and factual accuracy. Experiments on MIMIC-CXR and IU X-Ray across multiple VLM architectures, training regimes, and retrieval configurations demonstrate consistent improvements over both conventional RAG and concept-only baselines on clinical accuracy metrics and standard NLP measures. These results challenge the assumed trade-off between interpretability and performance, showing that transparent visual concepts can enhance rather than compromise diagnostic accuracy in medical VLMs. Our modular design decomposes interpretability into visual transparency and structured language model conditioning, providing a principled pathway toward clinically trustworthy AI-assisted radiology.

PDF Link:2602.15650v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/392029/

相关文章:

  • 建议收藏|AI论文网站 千笔 VS PaperRed,MBA专属写作神器!
  • 2026更新版!8个降AIGC工具测评:研究生降AI率必备指南
  • 2026古筝选购攻略:新手如何挑选到心仪的古筝?瑶鸾古筝Y103系列(梦蝶)/瑶鸾古筝Y508系列,古筝供应商有哪些 - 品牌推荐师
  • 中望3D2026技巧:利用【高度分析】快速区分模型中的平面与曲面
  • 互联网大厂Java面试:支付与金融服务场景全面解析
  • 中望3D2026实时查询曲面半径
  • android9.0 amlogic 遥控器POWER按键的假待机的搭建
  • 整理手机卡包别浪费!支付宝立减金这样处理更省心 - 可可收
  • 万爱通礼品卡如何回收?常见交易陷阱与解决方案揭晓! - 团团收购物卡回收
  • 2026虹口宠物医院口碑调查:哪些医院更受欢迎,猫咪体检/宠物医院/猫咪绝育/宠物内科/宠物外科,宠物医院排名前十 - 品牌推荐师
  • 09]delphi中richedit查找
  • 微信立减金回收简易流程:闲置福利不浪费,合规处理更省心 - 可可收
  • 2026年高性价比云服务器推荐|阿里云+腾讯云+雨云科技+凌霞软件专属福利,建站/开发必看
  • 小d和超级泡泡堂【牛客tracker 每日一题】
  • 携程任我行礼品卡回收攻略,闲置卡秒变现金流的秘密 - 京顺回收
  • 2026钢结构防火涂料优选指南:这些靠谱生产商值得关注,水性防火涂料,钢结构防火涂料直销厂家口碑推荐榜单 - 品牌推荐师
  • 深入解析:计算机毕业设计springboot健身房管理系统 基于SpringBoot的健身会所综合运营平台 面向Java的智能化健身场馆服务系统
  • 旋转位置编码笔记: R矩阵相乘推导
  • 2026年2月市面上口碑好的永磁工业风扇厂商推荐排行,大型工业风扇/工业吊扇/工业排风扇,永磁工业风扇品牌推荐排行 - 品牌推荐师
  • hadoop+Spark+django基于hadoop的电商商品推荐系统设计与实现
  • MATLAB 18自由度二级斜齿轮弯—扭—轴耦合(含驱动和负载)动力学代码(考虑时变啮合刚度、...
  • hadoop+Spark+django基于hadoop的交通信息分析系统设计与实现(源码+文档+调试+可视化大屏)
  • hadoop+Spark+django基于hadoop的电商用户数据行为分析与可视化(源码+文档+调试+可视化大屏)
  • hadoop+Spark+django基于大数据的汽车销售可视化系统的设计与实现(源码+文档+调试+可视化大屏)
  • hadoop+Spark+django基于hadoop的食物营养数据分析可视化系统(源码+文档+调试+可视化大屏)
  • 山东一卡通如何回收最划算?常见问题解答及实用技巧 - 团团收购物卡回收
  • Python3 基本数据类型详解
  • 别再花钱买云服务器了!OpenClaw 本地部署保姆级教程,10分钟拥有私人AI助手
  • 书籍-沙畹《西突厥史料》
  • 三相可控整流实战手记:从参数计算到仿真验证