当前位置：首页 > news >正文

AfriMed-QA

news 2026/3/27 7:37:53

AfriMed-QA

[论文笔记•(数据集)]AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset

一、一句话总结

提出第一个大型泛非英语多专业医学问答(QA)数据集，来自16个国家60多所医学院的15,000个问题(开放式和封闭式)，涵盖32个医学专业。包含15,275个英语临床多样化问题和答案的数据集，4,000多个带有答案的专家选择题(mcq)，超过1,200个带有长篇答案的开放式简短答案(saq)，以及10,000个消费者查询(CQ)

二、论文基本信息

单位：佐治亚理工学院

会议：ACL2025 main

阅读时间：2025.9.21

论文地址：AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset - ACL Anthology

代码：https://huggingface.co/datasets/intronhealth/afrimedqa_v2

三、研究的核心问题和背景

现在大模型已经在医学基准上取得了成功，但是作者提到如果把这些模型推广到涉及语言差异的任务中，模型的变现还能不能达到要求。

因此，AfriMed-QA数据集旨在：

(1)整合地理文化多样化的数据集，特别是那些来自非洲中低收入国家的数据集，这些数据集历来依赖纸质记录和当地健康数据，并且在大模型培训和评估中代表性不足;

(2)扩展医疗保健大模型基准数据集，以包括非洲消费者/患者为基础的查询。这使大模型能够对广泛的医疗数据进行培训和评估，为以非洲为中心的应用程序创建更强大、更具包容性和更实用的人工智能解决方案

四、框架及具体实现

如图所示的是数据集的构建流程。

上图比较了AfriMed-QA和其他医学数据集的差异。

五、评估数据集

使用30个大模型，包括开源和专有、通用和医学大模型，模型的规模从3B到540B。

评估指标：对于选择题，评估其正确性；对于开放式问答题，使用BERTScore和QuestEval来评估其和参考答案的语义相似性，然后使用ROUGE-Lsum来评估句子级结构重叠。

下表是模型在数据集上的主要结果：

下表是模型在AfriMedQA和MedQA问题上正确率的比较：