当前位置: 首页 > news >正文

AfriMed-QA

AfriMed-QA

[论文笔记•(数据集)]AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

一、一句话总结

提出第一个大型泛非英语多专业医学问答(QA)数据集,来自16个国家60多所医学院的15,000个问题(开放式和封闭式),涵盖32个医学专业。包含15,275个英语临床多样化问题和答案的数据集,4,000多个带有答案的专家选择题(mcq),超过1,200个带有长篇答案的开放式简短答案(saq),以及10,000个消费者查询(CQ)

二、论文基本信息

image-20250921143128016

单位:佐治亚理工学院

会议:ACL2025 main

阅读时间:2025.9.21

论文地址:AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset - ACL Anthology

代码:https://huggingface.co/datasets/intronhealth/afrimedqa_v2

三、研究的核心问题和背景

现在大模型已经在医学基准上取得了成功,但是作者提到如果把这些模型推广到涉及语言差异的任务中,模型的变现还能不能达到要求。

因此,AfriMed-QA数据集旨在:

(1)整合地理文化多样化的数据集,特别是那些来自非洲中低收入国家的数据集,这些数据集历来依赖纸质记录和当地健康数据,并且在大模型培训和评估中代表性不足;

(2)扩展医疗保健大模型基准数据集,以包括非洲消费者/患者为基础的查询。这使大模型能够对广泛的医疗数据进行培训和评估,为以非洲为中心的应用程序创建更强大、更具包容性和更实用的人工智能解决方案

四、框架及具体实现

image-20250921144113794

如图所示的是数据集的构建流程。

image-20250921144228268

上图比较了AfriMed-QA和其他医学数据集的差异。

五、评估数据集

使用30个大模型,包括开源和专有、通用和医学大模型,模型的规模从3B到540B。

评估指标:对于选择题,评估其正确性;对于开放式问答题,使用BERTScoreQuestEval来评估其和参考答案的语义相似性,然后使用ROUGE-Lsum来评估句子级结构重叠。

下表是模型在数据集上的主要结果:

image-20250921154233809

下表是模型在AfriMedQA和MedQA问题上正确率的比较:

image-20250921154518679