当前位置：首页 > news >正文

Google研究：对话式医疗系统AMIE升级，管理推理能力不劣于人类医生！

news 2026/6/24 11:05:15

Google研究：对话式医疗系统AMIE升级，在管理推理上不劣于人类医生！

近期，Google Deepmind与Google Research以对话式医疗系统AMIE为基础，开发了全新的基于LLM的智能Agent系统，可针对多次随访场景进行临床管理和医患对话优化。

大语言模型加速进入医疗健康领域，应用从文献检索、病历生成延伸至临床决策支持，辅助诊断是较成熟方向之一。但诊断只是起点，真正影响治疗质量的是诊断后的管理决策，这类“管理推理”更接近真实临床工作核心，也更考验模型综合理解能力。

相较于诊断推理，管理推理评估难度更大。目前医学教育中评价这类综合能力主要靠客观结构化临床考试（OSCE），但难以用于大语言模型自动化评测。

针对这一空白，Google Deepmind与Google Research的研究以AMIE为基础开发新系统。AMIE利用Gemini模型长上下文能力，结合上下文检索与结构化推理，使输出与最新临床实践指南和药物处方目录一致。在随机、双盲的虚拟客观结构化临床考试（OSCE）研究中，将AMIE与21名初级保健医生（PCP）比较，测试涵盖100个多次就诊案例场景。结果显示，在疾病管理推理能力方面，AMIE不逊于人类医生；在治疗方案和检查建议准确性、对临床指南遵循程度和知识依据可靠性方面，AMIE得分优于医生群体。

相关研究成果以“Towards Conversational AI for Disease Managemen”为题发表于Nature，研究亮点如下：

该研究将AMIE能力从单轮诊断推进到全流程临床管理推理。
系统利用Gemini长上下文能力，结合上下文内检索与结构化推理，使管理方案输出与权威临床知识高度一致。
在多项指标上，系统表现达到或超过全科医师水平。

数据集：从单次问答走向纵向临床场景

为评估对话式医疗人工智能长期管理推理能力，研究团队构建多层级数据体系，用于模型训练、方案生成和标准化评测。

核心评测载体是“多就诊虚拟OSCE场景数据集”，研究编制100套独立病例，分布在五个专科，每个专科20套。病例由加拿大和印度临床医师联合设计，参照NICE临床指南和BMJ最佳实践指南构建，设计为连续三次就诊，包含纵向信息，部分病例加入特殊要素检验系统判断能力。除100套正式评测病例外，还设置20套验证场景。

循证依据来自临床指南知识库，收录627份文档，总规模约1050万token，评测时向AI系统和参评全科医师开放。

研究团队还构建RxQA专项基准评估模型药物理解能力，包含600道选择题，题目源于美国OpenFDA和英国国家处方集，初稿由Gemini模型生成，经8名执业药师审核修订。目前公开300道源自OpenFDA的题目。