专家与大模型在临床医学中的人机协作:系统综述与荟萃分析
Human–large language model collaboration in clinical medicine: a systematic review and meta-analysis
摘要
本研究通过系统综述和荟萃分析评估了人类与AI协作(H+AI)在临床医学中的表现。研究纳入10项同行评审研究,结果显示:诊断准确性虽呈正向趋势但统计学不显著,综合诊断评分有显著改善但实际应用存在高度不确定性,时间效率无明显差异,文档质量提升但事实错误率仍高达26-36%。证据表明人机协作效果高度依赖具体情境。
阅读原文或https://t.zsxq.com/YlyZB获取原文pdf
一、研究背景与意义
1.1 人工智能在医疗领域的快速发展
人工智能(AI),特别是大语言模型(LLMs)如GPT-4、Claude以及任务专用系统AMIE,正在医疗保健领域快速发展,被广泛视为服务交付的潜在范式转变。早期证据显示,这些模型在标准化考试、临床数据解释、关键病史要素提取和初步诊断方面表现强劲。
与此同时,越来越多的医疗机构正在试点或部署AI工具,用于分诊、临床决策支持和文档记录,这强化了"协作优先"的叙事:许多组织正在采用人类-AI协作(H+AI)模型(副驾驶/半人马模式),利用AI的检索、计算和信息整合能力来增强临床判断,同时保留医生的最终权威。这种协作被认为可以提高效率和准确性,并更好地符合监管和伦理对可解释性和问责制的期望。
1.2 现有研究的局限性
尽管AI在医疗领域的应用势头强劲,但大多数研究仍着重于模型的独立诊断能力以及与临床医生的直接比较。一项包含83项研究的荟萃分析报告称,生成式AI的总体诊断准确率为52.1%,与"整体医生"或"非专家医生"无显著差异,但显著低于专家医生。
然而,一个关键差距依然存在:直接比较人类+AI(H+AI)与仅人类(H)和/或仅AI模式在临床任务表现及相关结果方面的研究非常有限。另一项综合了106项实验研究(370个效应量)的荟萃分析发现,平均而言,人类-AI团队的表现显著差于单一最佳代理——无论是人类还是AI(Hedges' g = -0.23; 95% CI -0.39至-0.07)——这凸显了协作有效性的可变性。
1.3 研究目标
本系统综述旨在综合和严格评估直接比较人类+AI(H+AI)与仅人类(H)和/或仅AI模式的证据,超越协作本质上有益的先验假设。我们的目标是识别人类-AI协作成功的临床任务、交互和工作流程设计以及实施条件——以及何时可能失败——从而为AI在临床护理中的审慎和有效部署提供可操作的、基于证据的指导。
二、研究方法
2.1 协议与注册
本综述遵循2020年系统综述和荟萃分析首选报告项目(PRISMA 2020)指南。该协议已在PROSPERO前瞻性注册(注册号:CRD420251068272)。研究识别、去重和筛选程序总结在PRISMA流程图中。
2.2 检索策略
研究团队系统性地检索了MEDLINE(PubMed)、Embase、Cochrane图书馆和Web of Science核心合集,检索时间从数据库建立至2025年6月28日。检索策略结合了受控词汇和自由文本术语(MeSH/Emtree加文本词),涉及人工智能和大语言模型("人工智能"、"自然语言处理"、"大语言模型/LLM"、"ChatGPT"、"GPT-3.5/4/4o"、"Claude"、"Gemini")以及临床应用(临床诊断、决策制定、分诊、管理、文档记录)。由于资源限制,研究仅限于英文出版物。
2.3 纳入标准
资格标准使用PICO框架先验指定:
- 人群(P)
:从事临床护理的持证临床医生
- 干预(I)
:基于LLM的AI辅助
- 比较(C)
:标准的仅人类临床工作流程,可能包括非AI决策支持(如指南、评分系统)但不含AI组件
- 结局(O)
:主要结局是临床正确性;次要结局包括时间效率等
2.4 文献筛选结果
研究团队最初识别了1235条记录,包括182条重复记录。经过标题/摘要筛选后,排除了958条不相关记录,对95篇全文文章进行了资格评估。10项同行评审研究符合主要分析的纳入标准,另外3项medRxiv预印本被添加为敏感性证据。研究排除了纯观察性方法学报告、没有临床结局的技术评估以及缺乏对照组的研究。
三、研究特征
在10项同行评审研究中,8项采用双臂设计(H+AI vs. H),2项还包括仅AI组(未纳入主要荟萃分析)。临床任务包括诊断推理、分诊/重症监护病房鉴别诊断、放射学和神经电诊断解释、临床文档记录以及跨学科沟通。所有干预措施均采用基于LLM的系统——主要是GPT-4/ChatGPT,也包括AMIE、DeepSeek-R1和PEACH。参与者主要是主治医师和住院医师;少数研究招募了医学生或亚专科阅片者。主要结局包括诊断/解释准确性、综合推理评分、时间效率、文档/报告质量(PDQI-9、AIGERS)以及跨学科理解。
四、荟萃分析主要结果
4.1 诊断与解释准确性(二元结局)
两项同行评审研究(k=2;Kim研究、Wu研究)报告了适合汇总的事件类型数据。研究层面的风险比(RRs)分别为1.32(95% CI 1.03-1.69)和2.15(95% CI 1.28-3.63)。
关键发现:
- 共同效应模型
:RR = 1.44(95% CI 1.16-1.80)
- 随机效应模型
:RR = 1.59(95% CI 0.08-32.74;I² = 63.8%;τ² = 0.0763;95%预测区间0.02-163.67)
尽管点估计值倾向于H+AI,但95%置信区间包含无效值,95%预测区间跨越无效值。因此,效应方向高度不确定,高度异质性和不精确性严重限制了跨设置的外推。
一项未纳入荟萃分析的配对读者-病例研究(McDuff研究,发表于《自然》杂志;NEJM临床病理讨论病例集)显示了一致的、统计学上显著的收益(Top-1:29.2%→59.1%;Top-10:33.6%→51.7%;McNemar检验P<0.01),作为外部一致性被引用。由于其配对方差结构与平行RCT不同,未与独立样本试验合并。
4.2 综合诊断与管理表现(百分比评分)
两项平行RCT研究(k=2;Goh 2024研究、Goh 2025研究)报告了综合百分比评分。
关键发现:
- 共同效应模型
:MD = +5.24百分点(95% CI +2.06至+8.42)
- 随机效应模型
:MD = +4.88百分点(95% CI +0.65至+9.12;I² = 35.6%;τ² = 3.6091;95%预测区间-31.65至41.42)
结果显示统计学上显著的改善(平均差异+4.88个百分点),但预测区间(-31.65至41.42)表明在现实世界中存在高度不确定性。
4.3 时间效率(分钟)
三项研究(k=3)报告了时间效率数据。
关键发现:
- 随机效应模型
:MD = +0.40分钟(95% CI -4.18至+4.97;I² = 70.1%;τ² = 1.9757;95%预测区间-7.18至7.98)
整体显示无差异,MD定义为(H+AI - H);正值表示AI辅助工作流程比仅人类工作流程更慢。个别研究显示混合结果,一项研究倾向于H,另一项倾向于H+AI。随机效应模型显示小的正MD(0.40),但其置信区间跨越零,表明无统计学显著差异。
4.4 文档质量与错误率
虽然文档质量有所改善,但事实错误率仍然很高(约26-36%),这削弱了质量提升的价值。在三臂设置中,H+AI并未普遍优于仅AI模式。
五、研究发现的解读与启示
5.1 证据的不确定性
本研究表明,尽管人类-AI协作在某些指标上显示出积极趋势,但证据仍然是初步的,且高度不确定和情境依赖。诊断准确性的宽置信区间和预测区间表明,在不同设置中,协作的效果可能存在巨大差异。
5.2 协作并非总是优于单独工作
理论期望与实证发现之间的紧张关系突显了关于如何协作以及何时协作能增加价值的持续不确定性。早期来自高质量随机对照试验的证据喜忧参半:一些研究发现AI辅助没有显著的净收益,其他研究仅在特定任务和情境中显示明显优势,还有几项研究报告了一个悖论——在某些条件下,仅AI的表现优于人类+AI团队。
5.3 高错误率的隐忧
尽管文档质量有所改善,但高达26-36%的事实错误率是一个严重问题。这表明AI系统在生成内容时可能产生看似合理但实际错误的信息(即"幻觉"问题),这在临床环境中可能带来安全风险。
六、研究建议
基于本系统综述的发现,研究团队提出以下建议:
6.1 开展预注册的实用性多中心试验
需要在真实工作流程中嵌入预注册的、实用性的多中心试验,以更好地评估人类-AI协作在实际临床环境中的表现。
6.2 建立统一的核心结局指标
应当建立协调一致的核心结局指标,优先考虑安全性/错误指标。这将有助于不同研究之间的比较和证据的累积。
6.3 设计支持验证的交互界面
需要设计能够显示不确定性并支持验证的交互界面。这样的界面可以帮助临床医生识别AI建议中的潜在错误,并促进更有效的人机协作。
6.4 关注特定任务和情境
鉴于协作效果的高度情境依赖性,未来研究应明确关注特定的临床任务、交互设计和实施条件,以识别协作成功的具体场景。
七、研究局限性
本研究存在以下局限性:
- 研究数量有限
:仅纳入10项同行评审研究,样本量相对较小
- 高度异质性
:不同研究在任务类型、AI系统、参与者特征等方面存在显著差异
- 语言限制
:仅纳入英文出版物,可能遗漏其他语言的相关研究
- 短期结果
:大多数研究关注短期结果,缺乏长期随访数据
八、结论与展望
本系统综述和荟萃分析提供了关于人类-大语言模型协作在临床医学中表现的最新证据总结。主要发现包括:
- 诊断准确性
:虽呈正向趋势(RR 1.59),但统计学不显著,且存在高度不确定性
- 综合表现
:显示统计学显著改善(MD +4.88百分点),但实际应用中不确定性高
- 时间效率
:无明显差异(MD +0.4分钟)
- 质量与安全
:文档质量提升但错误率仍高(26-36%)
这些发现表明,人类-AI协作在临床医学中的价值高度依赖于具体情境,并非普遍优于人类单独工作或AI单独工作。在大规模推广应用之前,需要更多高质量、针对特定临床场景的研究来明确协作的最佳模式和适用条件。
随着AI技术的不断进步和临床应用经验的积累,我们有理由相信,通过精心设计的人机协作模式,可以更好地发挥AI的优势,同时保持临床医生的专业判断和责任。然而,这需要持续的研究、审慎的实施和严格的安全监管。
