当前位置: 首页 > news >正文

npj Digit Med | 龙尔平/庞军玲团队:把健康档案写成“句子”,解码疾病分型、重构共病网络、预测患病风险

2026年5月14日,中国医学科学院基础医学研究所龙尔平/庞军玲团队在Nature系列数字医学顶刊《npj Digital Medicine》发表了原创研究,研发了面向深度表型数据的基础模型。

论文首页图

底层原理:让大模型像读句子一样读懂健康档案

医院里的电子病历、体检报告、生活方式问卷,数据格式各异、条目顺序混乱,传统模型很难统一处理。该模型从底层重新设计了一套“健康语言编码系统”。它将每一条健康信息拆解为“特征词元”和“取值词元”。例如“血常规”是一个特征,“偏高”是一个取值,两者配对形成一个“词”。所有健康条目无论以什么顺序出现,模型都通过“位置无关嵌入”技术准确理解其含义。这样一来,个体的全部健康档案就被组织成一段“描述健康的文章”,大模型读懂这些“文章”后,就可以用于疾病分型、共病分析和风险预测等多种任务。这套框架天然适配真实医院中数据不规整、条目不固定的场景。

深度表型基础模型的框架示意图

慢阻肺病的新发现:嗜碱性粒细胞分布特征提示肺功能下降

慢性阻塞性肺疾病(慢阻肺病)是一种异质性很强的呼吸疾病,长期缺乏公认的分型标准。该模型将慢阻肺病患者自动分成两类:一类患者的嗜碱性粒细胞计数集中在中间区间,语法模式“平稳”;另一类则频繁出现在两端,语法模式“两极震荡”。这两种不同的语法对应了显著不同的预后,10年生存率绝对差异达到4.5%。随后,研究者在4万余名有肺功能随访数据的人群中验证发现,基线时嗜碱性粒细胞处于“两端分布”的人,后续第一秒用力呼气量(FEV1)下降更明显。这一发现提示,嗜碱性粒细胞的分布特征可能成为慢阻肺病进展的一个新风险指标,也为早期识别肺功能下降高风险人群提供了可验证的方向。

共病研究的新意义:从“两两关联”走向“疾病社区”

传统共病研究多关注两种疾病是否经常同时出现,而本研究将视角提升到“疾病社区”层面。从四百余种非癌疾病中识别出超过三万个共病关系,其中绝大多数跨越不同器官系统。尤为重要的是,该模型挖掘出上千组此前未被报道的候选共病关系,例如低血小板障碍与痛风、Graves病与心肌炎,这些关联在生物学上具有合理性,值得进一步研究。通过聚类分析,模型进一步归纳出“疾病社区”,例如呼吸系统社区包含慢阻肺病、睡眠呼吸暂停、胸膜炎、支气管炎和鼻息肉;心血管社区则囊括高血压、血管疾病、心律失常、心肌病和主动脉瘤等疾病。不同社区的风险与保护因素各不相同,这种网络化的分析框架帮助我们从共享机制而非单一关联的角度理解多病共存,为跨病种综合干预提供了新思路。

患病风险预测:仅凭生活方式和饮食特征,即可实现患病风险分层预判

在患病风险预测方面,本研究证实仅结合生活方式和饮食习惯,便能有效预测未来患病风险。研究使用465个生活方式和饮食特征,随机抽取50,000人训练分类模型,再用其余452,118人验证,覆盖143种疾病。结果显示,模型平均AUC为0.82,较10个常见机器学习模型提升0.03-0.16,并在49.3%的疾病任务中排名第一;在纵向随访中,模型分出的高风险人群后续发病率更高,例如痛风最高风险组后续发生率为5.6%,相对最低风险组的比值比约为17.5。这说明,日常生活方式和饮食信息不再只是背景资料,而可以被转化为可评估的未来患病风险图谱,为更早识别高风险人群、开展精准预防和健康管理提供了新的技术路径。

总结:面向真实医疗数据的通用模型赋能精准医疗

本研究并不是一个为特定数据库定制的模型,而是一套可以适配医院电子病历、体检队列和健康管理平台的通用底层框架。它通过特征-取值对偶词元化、位置无关嵌入和分层Transformer编码,实现了对复杂、异构、不规整健康数据的统一建模。同一个模型表征可以同时用于疾病内部分型、共病网络构建和后续患病风险预测,其代表的“健康语言化”思路,为利用日常医疗数据开展精准医学研究打开了一扇新的大门。

洪奇阳和王聪为该论文的共同第一作者,庞军玲与龙尔平为共同通讯作者。本研究得到呼吸和共病全国重点实验室专项经费(2060204)、中国医学科学院医学与健康科技创新工程(2023-I2M-3-010, 2025-I2M-XHXX-069)和中国医学科学院基本科研业务费(2023-JKCS-20)等项目支持。

原文链接:https://www.nature.com/articles/s41746-026-02736-w

最全1000+植物核基因组数据库IMP (点击图片直达)

高颜值免费 SCI 在线绘图(点击图片直达)


往期精品(点击图片直达文字对应教程)

LinuxPython

R绘图NGS基础GEO高级

生信自学生信书籍系列教程心得体会

转录组经典宏基因组蛋白质组单细胞系列测序发展史

免费在线画图色彩搭配图形排版图形解读

ChIP-seqTCGAGSEAWGCNA

海哥组学傻瓜系列文章写作

CytoscapeExcelPPT

机器学习

公众号投稿联系:陈同 (chentong_biology@163.com)

http://www.jsqmd.com/news/889501/

相关文章:

  • 2026年晋城装修公司排名及避坑指南:附本地真实评价与选装攻略 - GEO排行榜
  • 终极GitHub加速方案:告别龟速下载,体验飞一般的高效开发
  • 官方认证|2026年国内十大正规北美黑胡桃家具公司排名,琦沐韵家具品质服务双保障,广东佛山等地覆盖 - 十大品牌榜
  • 微信单向好友终极检测指南:3步找出谁删除了你
  • 618发膜预售清单:提前锁定发膜品牌的明星产品 - 速递信息
  • 市面上知名的剥壳机供应厂家推荐,麻籽剥壳机/元宝枫脱壳机/紫苏脱皮机/葵花籽剥壳机/黄豆去皮机,剥壳机制造商怎么选购 - 品牌推荐师
  • OR-Tools依赖配置完整指南:如何快速解决Eigen3等数学库依赖问题?
  • 杭州太空袋采购:看不见的成本账与长期保障逻辑(2026年5月最新) - GEO排行榜
  • Windows系统部署终极指南:3大核心优势实现自动化安装
  • 告别网络卡顿!用哔咔漫画下载器打造个人离线漫画图书馆
  • 解剖一个桌面级 AI Copilot 的架构:Stargazer AI Copilot(.NET 10 + Avalonia)是怎么“分层”的
  • Python独立构建:跨平台部署的终极解决方案
  • 技术揭秘:Learn GDScript From Zero脚本验证与智能错误处理机制
  • 2026年!北京云仓代发平台推荐榜单:智能仓配赋能高效履约 - 品牌评测官
  • 3步精通SH1106 OLED显示:嵌入式开发者的避坑实战指南
  • 3分钟焕新桌面:免费获取原汁原味macOS鼠标指针的完整指南
  • 太原装修公司排名及避坑指南,本地装修优选公司推荐。 - GEO排行榜
  • 3分钟解锁QQ音乐加密文件:qmcflac2mp3一键转换工具全攻略
  • 2026 工业脱硝设备源头厂家怎么选?技术、案例、服务全维度实测推荐 - GEO排行榜
  • iCraft Editor故障排除:10个常见问题与解决方案大全 [特殊字符]️
  • 如何用OpCore Simplify在10分钟内完成专业级黑苹果EFI配置
  • 干皮眼周暗沉用什么眼油?涂CA眼油,温和提亮改善熊猫眼 - 全网最美
  • 2026淮北黄金回收行业综合实力排名TOP10 | 权威测评榜单重磅发布 - 天天生活分享日志
  • Avogadro 2:5分钟掌握开源分子建模,开启化学可视化新时代
  • 马桶花洒过滤器靠谱厂家推荐 - 奔跑123
  • 3个步骤让英雄联盟对局预测变得像喝水一样简单
  • ZjDroid常见问题解决指南:从ApkProtect脱壳到内存dump的疑难解答
  • 300+车型支持的自动驾驶系统:openpilot从零部署完全指南
  • 2026年川渝地区初中毕业,这些热门职高专业值得关注! - 博客万
  • VideoTogether终极指南:跨平台视频同步插件,让异地观影零距离