当前位置: 首页 > news >正文

MedMO Grounding and Understanding Multimodal Large Language Model for Medical Images

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Authors:Ankan Deria, Komal Kumar, Adinath Madhavrao Dukre, Eran Segal, Salman Khan, Imran Razzak

Deep-Dive Summary:

MedMO:面向医学图像定位与理解的多模态大语言模型

摘要

MedMO 是一款功能强大的开源多模态大语言模型(VLM),专为医学图像的全面理解与定位而设计。通过在包含 45 个数据集、超过 2600 万个样本的多模态医学语料库上进行多阶段训练,MedMO 在 VQA、报告生成和视觉定位(Grounding)等任务中均取得了显著提升。特别是在细菌分割任务中,其 IoU(交并比)相较于基准模型提升了+ 40.4 +40.4+40.4,相较于 Fleming-VL 提升了+ 37.0 % +37.0\%+37.0%,充分展现了其卓越的空间推理和定位能力。MedMO 提供 4B 和 8B 两个版本。

图 1.MedMO-8B 在多种医学成像任务中的基准表现。模型在 MMMU-Med(+ 1.3 % +1.3\%+1.3%)、MedQA(+ 24.3 % +24.3\%+24.3%)、MIMIC-CXR(+ 5.1 % +5.1\%+5.1%)以及细菌分割(IoU+ 43.8 +43.8+43.8)等方面均实现了稳健增长。

2. 相关工作

2.1 医学多模态大模型

从早期的 LLaVA-Med 到近期的 Med-Gemini 和 Med-PaLM,医学 MLLM 经历了从线性投影对齐到引入丰富数据集和强化学习的发展过程。MedMO 在此基础上强调大规模开源后训练和渐进式多模态对齐。

2.2 多模态模型中的定位(Grounding)

与传统的基于检测的方法不同,现代 VLM(如 Qwen2.5-VL)开始通过坐标和点位回归实现显式的视觉定位。MedMO 将这些原始定位能力迁移到临床数据中,以应对精细的临床定位挑战。

4. 实验

4.1 实验设置

MedMO 在 64 块 AMD MI210 GPU 上训练了 25 天。各阶段的分辨率从768 × 768 768\times 768768×768提升至1280 × 1280 1280\times 12801280×1280

4.2 数据集

整合了 45 个数据集,总计超过 2600 万个样本,涵盖了人体各主要生物系统和成像模态。

图 4.统一多模态医学数据集的组成。

4.3 结果与分析

4.3.1 问答性能

MedMO 在 MMMU-Med(64.6%)和 MedQA(90.4%)等基准测试中达到了 SOTA 水平,显著优于 Qwen3VL 基础模型。

4.3.2 医学理解(报告生成)

在 MIMIC-CXR 数据集上,MedMO 的 CIDEr 分数达到 140.0,在 Med-Trinity 跨模态数据集上更是以 270.4 的 CIDEr 分数遥遥领先(见表 2)。

4.3.3 定位性能

MedMO 在 DeepLesion(IoU38.5 % 38.5\%38.5%)和细菌检测(IoU54.6 % 54.6\%54.6%)中表现卓越。在 MedSG 综合基准测试中,其在多视图、目标跟踪和指代定位任务中均大幅超过现有模型(见表 3)。

图 3.不同模型在医学问答和定位任务中的定性比较。MedMO 提供了更准确的医学理解和边界框定位。

4.4 消融研究

(此处省略具体消融细节,详见原文)

4.4.1. 训练后阶段的消融实验

我们进行了阶段性的消融实验,以评估训练后(Post-training)每个阶段对 MedMO 在放射学和问答(QA)基准测试中表现的贡献。如图 5 和图 6 所示,性能随阶段逐步提升,验证了我们优化策略的有效性。在第一阶段,模型在 MedTrinity 数据集上训练,虽然在该数据集上取得了很强的准确率,但在其他数据集上表现出轻微的性能下降。第二阶段通过高分辨率和多样化的医学数据训练提供了最大的性能增益,而第三阶段则通过指令微调(Instruction Tuning)进一步提升了 QA 和 VQA 的性能,增强了多模态对齐和推理能力。每个阶段都贡献了互补的改进,使得 MedMO 在所有任务中的整体性能得到了持续增强。

图 5. 放射学数据集在训练后各阶段的性能表现。MedMO 在 IU-Xray、MIMIC-CXR、CheXpert 和 MedTrinity 数据集上的诊断准确率和定位能力呈现出持续增长。第二阶段的显著提升突显了结合医学推理目标的对齐微调所带来的益处。

图 6. QA 和 VQA 在各阶段的消融实验结果。问答(QA)和视觉问答(VQA)的准确率均逐步提高,表明阶段性优化增强了医学领域的多模态推理和事实依据。

4.4.2. 边界框可验证奖励

表 4 显示了强化学习后模型获得的一致性收益,证实了我们边界框奖励(Bounding-box Reward)的有效性。尽管提升幅度较小,但该奖励可靠地增强了跨数据集的空间精度和定位一致性。

5. 结论

我们推出了 MedMO,这是一个通用的医学多模态基础模型,它统一了多种医学模态下的视觉定位、临床推理和语言理解。通过一个可扩展的四阶段训练后流水线——涵盖大规模对齐、高分辨率微调、指令微调以及带有可验证奖励的强化学习——MedMO 实现了强大的多模态理解和精确的空间定位。实验结果表明,MedMO 相比强大的开源基线模型取得了显著的增益。作为一种开源医学 MLLM,MedMO 为构建可靠且透明的医学 VLM 系统开辟了一条可扩展的路径。未来的工作可能会探索在强化学习框架中更好地保留 SFT(监督微调)知识的策略。

局限性:MedMO 的阶段性训练导致了细微的任务级性能偏移,如附图 5 和 6 所示,这是大型多模态模型中由于灾难性遗忘所导致的典型行为。未来的工作将专注于提高跨任务的知识保留,同时扩大对更多医学成像模态的覆盖。

Original Abstract:Multimodal large language models (MLLMs) have rapidly advanced, yet their adoption in medicine remains limited by gaps in domain coverage, modality alignment, and grounded reasoning. In this work, we introduce MedMO, a medical foundation model built upon a generalized MLLM architecture and trained exclusively on large-scale, domain-specific data. MedMO follows a multi-stage training recipe: (i) cross-modal pretraining to align heterogeneous visual encoders with a medical language backbone; (ii) instruction tuning on multi-task supervision that spans captioning, VQA, report generation, retrieval, and grounded disease localization with bounding boxes; and (iii) reinforcement learning with verifiable rewards that combine factuality checks with a box-level GIoU reward to strengthen spatial grounding and step-by-step reasoning in complex clinical scenarios. MedMO consistently outperforms strong open-source medical MLLMs across multiple modalities and tasks. On VQA benchmarks, MedMO achieves an average accuracy improvement of +13.7% over the baseline and performs within 1.9% of the SOTA Fleming-VL. For text-based QA, it attains +6.9% over the baseline and +14.5% over Fleming-VL. In medical report generation, MedMO delivers significant gains in both semantic and clinical accuracy. Moreover, it exhibits strong grounding capability, achieving an IoU improvement of +40.4 over the baseline and +37.0% over Fleming-VL, underscoring its robust spatial reasoning and localization performance. Evaluations across radiology, ophthalmology, and pathology-microscopy confirm MedMO’s broad cross-modality generalization. We release two versions of MedMO: 4B and 8B. Project is available at https://genmilab.github.io/MedMO-Page

PDF Link:2602.06965v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/361682/

相关文章:

  • Seeing Beyond Redundancy Task Complexity‘s Role in Vision Token Specialization in VLLMs
  • 聊聊佛山GEO推广优化方案,深圳光合道值得推荐 - 工业品网
  • 【大模型部署】零成本体验私有化部署llama3.1
  • 2026年河北永磁磁选机大型厂家年度排名,哪家性价比高? - mypinpai
  • Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space
  • 2026年无锡口碑好的工作服老牌厂家推荐,专业工装工作服制作企业全解析 - 工业推荐榜
  • 剖析深圳有名的婚纱摄影专业公司,了解优势再做决定 - 工业推荐榜
  • 超大模型部署无压力!一键运行 Llama 3.1 405B 和 Mistral Large 2
  • 探寻全国做抖音培训的人物,铭泽国际实战经验丰富 - myqiye
  • ico多个尺寸用PNG,BMP哪个更小
  • 分析南通团体服源头厂家选择,哪家口碑比较靠谱 - 工业设备
  • 真心不骗你 10个AI论文平台深度测评,专科生毕业论文写作必备工具推荐!
  • 2026年常州工作服制造厂选哪家好,十大靠谱厂家排行榜揭晓 - 工业品牌热点
  • SPARC Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
  • 单采PBMC白细胞专业供应商+单采中外籍PBMC白细胞优质供应商,中外籍供体合规优选 - 品牌推荐大师1
  • RAG可以不用向量库?来围观一下这是怎么回事呢
  • 智能电子孵化箱温控计设计
  • 编写空调省电助手,根据室内温度,室外温度,人数,推荐空调最佳温度和模式,(制冷/制热,除湿),实时监控空调耗电量,生成省电报告,节省电费。
  • Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering
  • 2026年2月混凝土抗裂添加剂工厂推荐,工程抗裂配方与应用指南 - 品牌鉴赏师
  • 2026 昆明英语雅思培训教育机构推荐、雅思培训课程中心权威口碑榜单 - 老周说教育
  • 培训直播平台哪个好?2026实测不踩坑
  • 2026年比较好的柑橘水溶肥/中量元素水溶肥厂家用户好评推荐 - 行业平台推荐
  • 2.9—寒假第一阶段小结
  • 2026南美(巴西、哥伦比亚)出海新选择:专业EOR服务商如何助力企业合规雇佣 - 品牌2025
  • DNS解析
  • 高性能封装材料需求增,铝碳化硅(AlSiC)预计六年CAGR为6.5%
  • 微信小程序 路演中 演出报名投票系统的设计与实现
  • 【AI学术写作工具】哪个好?2026年实测4款科研神器指南,拒绝文献造假与逻辑硬伤! - 沁言学术
  • 分析AGV灭火设备制造商哪家性价比高,价格费用如何 - 工业设备