当前位置: 首页 > news >正文

Google研究:对话式医疗系统AMIE升级,管理推理能力不劣于人类医生!

Google研究:对话式医疗系统AMIE升级,在管理推理上不劣于人类医生!

近期,Google Deepmind与Google Research以对话式医疗系统AMIE为基础,开发了全新的基于LLM的智能Agent系统,可针对多次随访场景进行临床管理和医患对话优化。

大语言模型加速进入医疗健康领域,应用从文献检索、病历生成延伸至临床决策支持,辅助诊断是较成熟方向之一。但诊断只是起点,真正影响治疗质量的是诊断后的管理决策,这类“管理推理”更接近真实临床工作核心,也更考验模型综合理解能力。

相较于诊断推理,管理推理评估难度更大。目前医学教育中评价这类综合能力主要靠客观结构化临床考试(OSCE),但难以用于大语言模型自动化评测。

针对这一空白,Google Deepmind与Google Research的研究以AMIE为基础开发新系统。AMIE利用Gemini模型长上下文能力,结合上下文检索与结构化推理,使输出与最新临床实践指南和药物处方目录一致。在随机、双盲的虚拟客观结构化临床考试(OSCE)研究中,将AMIE与21名初级保健医生(PCP)比较,测试涵盖100个多次就诊案例场景。结果显示,在疾病管理推理能力方面,AMIE不逊于人类医生;在治疗方案和检查建议准确性、对临床指南遵循程度和知识依据可靠性方面,AMIE得分优于医生群体。

相关研究成果以“Towards Conversational AI for Disease Managemen”为题发表于Nature,研究亮点如下:

  • 该研究将AMIE能力从单轮诊断推进到全流程临床管理推理。
  • 系统利用Gemini长上下文能力,结合上下文内检索与结构化推理,使管理方案输出与权威临床知识高度一致。
  • 在多项指标上,系统表现达到或超过全科医师水平。

数据集:从单次问答走向纵向临床场景

为评估对话式医疗人工智能长期管理推理能力,研究团队构建多层级数据体系,用于模型训练、方案生成和标准化评测。

核心评测载体是“多就诊虚拟OSCE场景数据集”,研究编制100套独立病例,分布在五个专科,每个专科20套。病例由加拿大和印度临床医师联合设计,参照NICE临床指南和BMJ最佳实践指南构建,设计为连续三次就诊,包含纵向信息,部分病例加入特殊要素检验系统判断能力。除100套正式评测病例外,还设置20套验证场景。

循证依据来自临床指南知识库,收录627份文档,总规模约1050万token,评测时向AI系统和参评全科医师开放。

研究团队还构建RxQA专项基准评估模型药物理解能力,包含600道选择题,题目源于美国OpenFDA和英国国家处方集,初稿由Gemini模型生成,经8名执业药师审核修订。目前公开300道源自OpenFDA的题目。

AMIE模型:让系统同时具备“对话能力”和“深度管理能力”

该研究以谷歌对话式医疗系统AMIE为基础专项升级,新系统采用双智能体协同架构,借鉴“双过程理论”,底层模型用Gemini 1.5 Flash。

系统由对话智能体和Mx管理推理智能体组成。对话智能体负责医患对话,维护患者状态;Mx智能体负责管理推理,生成管理计划。两者通过共享状态模块同步信息。

对话智能体相比原有诊断模型有三方面升级:更换基础模型,新增训练数据,加入强化学习。实时推理采用“规划 - 生成 - 完善”流程,维护模块化状态结构。

Mx智能体是深度管理推理核心模块,采用“粗检索 + 全上下文推理”策略,减少信息割裂。通过Gecko 1B嵌入模型建立索引,筛选相关文档输入模型推理。采用JSON模式约束结果,按框架输出,附带指南引用,先独立生成草案再整合完善。

在15项指标上均不劣于全科医师

为验证系统临床管理推理能力,研究采用随机、盲法的虚拟OSCE框架,结合RxQA药物基准测试,将AMIE系统与21名全科医师对照。评估围绕诊疗方案整体质量、检查项目推荐质量、治疗方案推荐质量三个维度展开。

临床评测中,系统和全科医师完成100套多就诊病例,30名专科医师和标准化患者盲法评分。药物测试设置闭卷和开卷环境。

结果显示,在诊疗方案整体质量方面,系统在15项评估维度上均不劣于全科医师,多项指标有统计学优势。治疗推荐适当率和检查治疗推荐精确性上,系统持续优于全科医师。指南依从性方面,系统可追溯性明显优于人类医生。

在双视角偏好评估中,近半数案例双方表现相当,系统胜率47%高于全科医师的7%,专科医师与患者评价趋势一致。随着就诊次数增加,系统在时间相关维度优势更明显。

药物推理方面,RxQA基准显示系统在高难度试题上优于全科医师,开卷资料对双方都有帮助,但不能完全解决高难度药物推理问题。

写在最后

这项研究价值在于将评估重点从“能否诊断”推进到“能否持续管理”。研究提出的多就诊虚拟OSCE、指南知识库、药物专项基准和双智能体系统,为医疗AI评测提供更贴近临床的框架。但虚拟环境无法完全还原真实医疗情况。

更稳妥的判断是:医疗大模型正从“辅助诊断”走向“辅助管理”,短期价值是成为临床决策支持工具。

http://www.jsqmd.com/news/1072300/

相关文章:

  • 鸿蒙 Next 小众爱好图鉴 App 开发实战:兴趣发现 + 分类系统 + 收藏管理
  • 数据分析向云迁移时如何避免混乱
  • 分人群定制:不同角色如何用好AI建站工具?
  • Python:第11天:异常处理 —— 让程序不轻易崩溃
  • AutoGen 核心 Agent 聊天与对话模式
  • 2026 年企业级大模型API聚合网关选型实录:十款主流平台技术横评与场景匹配
  • 2026年最新选购参考:天学网和科大讯飞到底哪个更适合入手?
  • 三年累亏超3亿、现金流持续为负,思必驰凭什么再闯科创板?
  • 6个本科绿牌专业薪资大揭秘,3S专业就业差距在哪?
  • 告别GitHub英文困扰:5分钟实现中文界面的完整指南
  • AI教材写作必备:低查重AI工具,助你快速打造精品教材!
  • 2026年AI聚合平台大揭秘!哪家公司更胜一筹?
  • 手把手教你从0到1搭建一个AI Agent(智能体)
  • 深度解密:掌握微信数据库AES-256-CBC加密逆向工程核心技术
  • 工业品短视频推广/必打标+必触达+必搜到,工业品短视频推广整套降本打法
  • NS-USBLoader终极指南:3步搞定Switch游戏管理与系统破解
  • AI 时代软件工程巨变:瓶颈转移、角色模糊,未来何去何从?
  • 显卡驱动彻底清理终极指南:为什么你需要Display Driver Uninstaller?
  • 2026气液增压器品牌格局重塑:国际、台系与国产的三方博弈
  • 终极QQ音乐解密工具qmcdump:三步解锁加密音乐自由播放
  • 洛雪音乐六音音源终极修复指南:5分钟恢复完整音乐体验
  • 知名的GPRC5D(Detergent)膜蛋白厂家名声
  • 不再依赖L6和C2C12:云克隆大鼠骨骼肌细胞(SkMC)原代细胞为肌肉研究提供“未经改造”的真实视角
  • 如何快速上手AlienFX Tools:Alienware灯光、风扇和电源控制的终极指南
  • 论文修改记录优化方案,AI识别能力带来更清晰整理体验
  • Windows Cleaner终极指南:3分钟解决C盘爆红的免费神器
  • 5分钟掌握大麦抢票脚本:告别手动抢票的终极指南
  • 彻底搞懂 SLF4J 桥接模块:让老日志 API 乖乖听话
  • 口碑优良的贴标机厂家,高效生产背后的秘密
  • NS-USBLoader终极指南:3分钟搞定Switch文件传输与RCM注入