当前位置：首页 > news >正文

专家与大模型在临床医学中的人机协作：系统综述与荟萃分析

news 2026/3/26 17:22:19

Human–large language model collaboration in clinical medicine: a systematic review and meta-analysis

摘要

本研究通过系统综述和荟萃分析评估了人类与AI协作（H+AI）在临床医学中的表现。研究纳入10项同行评审研究，结果显示：诊断准确性虽呈正向趋势但统计学不显著，综合诊断评分有显著改善但实际应用存在高度不确定性，时间效率无明显差异，文档质量提升但事实错误率仍高达26-36%。证据表明人机协作效果高度依赖具体情境。

阅读原文或https://t.zsxq.com/YlyZB获取原文pdf

一、研究背景与意义

1.1 人工智能在医疗领域的快速发展

人工智能（AI），特别是大语言模型（LLMs）如GPT-4、Claude以及任务专用系统AMIE，正在医疗保健领域快速发展，被广泛视为服务交付的潜在范式转变。早期证据显示，这些模型在标准化考试、临床数据解释、关键病史要素提取和初步诊断方面表现强劲。

与此同时，越来越多的医疗机构正在试点或部署AI工具，用于分诊、临床决策支持和文档记录，这强化了"协作优先"的叙事：许多组织正在采用人类-AI协作（H+AI）模型（副驾驶/半人马模式），利用AI的检索、计算和信息整合能力来增强临床判断，同时保留医生的最终权威。这种协作被认为可以提高效率和准确性，并更好地符合监管和伦理对可解释性和问责制的期望。

1.2 现有研究的局限性

尽管AI在医疗领域的应用势头强劲，但大多数研究仍着重于模型的独立诊断能力以及与临床医生的直接比较。一项包含83项研究的荟萃分析报告称，生成式AI的总体诊断准确率为52.1%，与"整体医生"或"非专家医生"无显著差异，但显著低于专家医生。

然而，一个关键差距依然存在：直接比较人类+AI（H+AI）与仅人类（H）和/或仅AI模式在临床任务表现及相关结果方面的研究非常有限。另一项综合了106项实验研究（370个效应量）的荟萃分析发现，平均而言，人类-AI团队的表现显著差于单一最佳代理——无论是人类还是AI（Hedges' g = -0.23; 95% CI -0.39至-0.07）——这凸显了协作有效性的可变性。

1.3 研究目标

本系统综述旨在综合和严格评估直接比较人类+AI（H+AI）与仅人类（H）和/或仅AI模式的证据，超越协作本质上有益的先验假设。我们的目标是识别人类-AI协作成功的临床任务、交互和工作流程设计以及实施条件——以及何时可能失败——从而为AI在临床护理中的审慎和有效部署提供可操作的、基于证据的指导。

二、研究方法

2.1 协议与注册

本综述遵循2020年系统综述和荟萃分析首选报告项目（PRISMA 2020）指南。该协议已在PROSPERO前瞻性注册（注册号：CRD420251068272）。研究识别、去重和筛选程序总结在PRISMA流程图中。

2.2 检索策略

研究团队系统性地检索了MEDLINE（PubMed）、Embase、Cochrane图书馆和Web of Science核心合集，检索时间从数据库建立至2025年6月28日。检索策略结合了受控词汇和自由文本术语（MeSH/Emtree加文本词），涉及人工智能和大语言模型（"人工智能"、"自然语言处理"、"大语言模型/LLM"、"ChatGPT"、"GPT-3.5/4/4o"、"Claude"、"Gemini"）以及临床应用（临床诊断、决策制定、分诊、管理、文档记录）。由于资源限制，研究仅限于英文出版物。

2.3 纳入标准

资格标准使用PICO框架先验指定：

人群（P）
：从事临床护理的持证临床医生
干预（I）
：基于LLM的AI辅助
比较（C）
：标准的仅人类临床工作流程，可能包括非AI决策支持（如指南、评分系统）但不含AI组件
结局（O）
：主要结局是临床正确性；次要结局包括时间效率等

2.4 文献筛选结果

研究团队最初识别了1235条记录，包括182条重复记录。经过标题/摘要筛选后，排除了958条不相关记录，对95篇全文文章进行了资格评估。10项同行评审研究符合主要分析的纳入标准，另外3项medRxiv预印本被添加为敏感性证据。研究排除了纯观察性方法学报告、没有临床结局的技术评估以及缺乏对照组的研究。

三、研究特征

在10项同行评审研究中，8项采用双臂设计（H+AI vs. H），2项还包括仅AI组（未纳入主要荟萃分析）。临床任务包括诊断推理、分诊/重症监护病房鉴别诊断、放射学和神经电诊断解释、临床文档记录以及跨学科沟通。所有干预措施均采用基于LLM的系统——主要是GPT-4/ChatGPT，也包括AMIE、DeepSeek-R1和PEACH。参与者主要是主治医师和住院医师；少数研究招募了医学生或亚专科阅片者。主要结局包括诊断/解释准确性、综合推理评分、时间效率、文档/报告质量（PDQI-9、AIGERS）以及跨学科理解。

四、荟萃分析主要结果

4.1 诊断与解释准确性（二元结局）

两项同行评审研究（k=2；Kim研究、Wu研究）报告了适合汇总的事件类型数据。研究层面的风险比（RRs）分别为1.32（95% CI 1.03-1.69）和2.15（95% CI 1.28-3.63）。

关键发现：

共同效应模型
：RR = 1.44（95% CI 1.16-1.80）
随机效应模型
：RR = 1.59（95% CI 0.08-32.74；I² = 63.8%；τ² = 0.0763；95%预测区间0.02-163.67）

尽管点估计值倾向于H+AI，但95%置信区间包含无效值，95%预测区间跨越无效值。因此，效应方向高度不确定，高度异质性和不精确性严重限制了跨设置的外推。

一项未纳入荟萃分析的配对读者-病例研究（McDuff研究，发表于《自然》杂志；NEJM临床病理讨论病例集）显示了一致的、统计学上显著的收益（Top-1：29.2%→59.1%；Top-10：33.6%→51.7%；McNemar检验P<0.01），作为外部一致性被引用。由于其配对方差结构与平行RCT不同，未与独立样本试验合并。