当前位置: 首页 > news >正文

一个通过深度学习整合多组学功能注释的基因组预测模型DeepAnnotation

分享一篇2025年8月28日由中国农业科学院深圳农业基因组研究所刘毓文课题组在《GigaScience》上发表题为“DeepAnnotation: A novel interpretable deep learning–based genomic selection model that integrates comprehensive functional annotations”的研究论文。该研究开发了一款一种名为 DeepAnnotation 的新型可解释深度学习方法,用于整合多组学功能注释进行基因组选择(GS),以提高农业动植物复杂性状预测的准确性和生物学可解释性。

背景与意义

  • 基因组选择(GS) 是现代动植物育种的核心技术,通过全基因组标记预测个体的遗传价值,显著加快了育种进程。
  • • 随着多组学数据(如转录组、表观基因组)的积累,将这些生物学先验信息整合进预测模型成为提高预测准确性的关键。
  • • 尽管已有模型(如BLUP、BayesR等)广泛应用,但它们在处理非加性效应、非线性关系和整合多组学信息方面仍存在局限。
  • • 深度学习(DL)具备强大的非线性建模能力,但其“黑箱”特性限制了其在生物学机制解析中的应用。

方法

1. DeepAnnotation模型构建

  • 核心思想:模拟从基因型到表型的生物信息流(DNA → 表观调控 → 转录 → 功能模块 → 表型),构建多层深度神经网络。
  • 模型结构
    • • 输入层:全基因组SNP(包括编码和非编码区)。
    • • 功能注释层:整合DeepSEA预测的染色质可及性、RNAfold预测的RNA二级结构变化、easyMF预测基因功能和调控模块(metaterms)。
    • • 隐藏层:提取高阶特征。
    • • 输出层:预测表型值。

2. 功能注释构建

  • • 使用RNAfold、DeepSEA、easyMF等工具分别预测编码/非编码SNP的生物学效应。
  • • 构建多层次注释:SNP → cis调控元件 → 基因 → 功能模块(metaterms)。

3. 模型训练与评估

  • • 使用1700头杜洛克猪的全基因组数据(1163万SNP)训练模型,240头独立个体验证。
  • • 与7种主流模型(rrBLUP、BLUP、BayesR、BayesRC、MBLUP、LightGBM、KAML)比较预测准确性。
  • • 采用5折交叉验证、Pearson相关系数(PCC)、相对效率(RE)等指标评估性能。

主要结果

1. 预测准确性显著提升

  • • DeepAnnotation在预测猪的三个重要经济性状(瘦肉率LMP、背膘厚BF、眼肌深LMD)方面,PCC提升6.4%~120.0%
  • • 在挑选排名前1%~10%的个体时,相对效率显著优于其他模型(P < 0.05)。

2. 生物学可解释性

  • • 通过后向追踪策略,识别出与LMP显著相关的功能模块(metaterm 8),其富集于“DNA甲基化依赖的异染色质组装”通路。
  • • 精确定位两个非编码SNP(chr10:23833431 和 chr4:95182500),分别调控KDM5B和UBE2Q1基因表达,参与骨骼肌发育。
  • • 双荧光素酶报告实验验证这两个SNP具有增强子活性,且不同等位基因间活性差异显著(P < 0.001)。

3. 模型鲁棒性与计算效率

  • • 在独立测试集上表现稳定,训练时间与rrBLUP等模型相当。
  • • 整合功能注释后,模型对显著SNP的富集能力和解释遗传力(heritability)显著提升。

讨论与展望

优势

  • 首次将多组学功能注释系统整合进可解释深度学习框架,用于农业物种基因组选择。
  • • 兼顾预测准确性生物学机制解析,突破传统“黑箱”模型局限。
  • • 提供开源工具(GitHub + Docker),便于推广应用于其他物种和性状。

局限性

  • • 训练样本量相对较小(1700),可能影响模型泛化能力。
  • • 未考虑连锁不平衡(LD)对因果变异识别的影响。
  • • 当前反向追踪策略可能遗漏部分重要位点。

未来方向

  • • 扩大训练样本和外部验证数据集。
  • • 引入LD调整和基因敲除实验验证因果性。
  • • 优化反向追踪算法,提升关键SNP/基因识别能力。

后记

Github(https://github.com/mawenlong2016/DeepAnnotation)上用法比较详细,感兴趣的朋友可以去试试,看看在植物上效果如何?

如果童鞋们要系统入门基因组选择,近期中国农科院首席团队开设了一门理论与实践课程,详见:全基因组选择&智能设计育种全面升级,通过本文报名的朋友(扫以下二维码),课程结束后可联系小编免费加入“生物信息与育种”知识星球(价值199元),内含大量智能育种相关资源,欢迎一起交流学习。

http://www.jsqmd.com/news/22904/

相关文章:

  • 如何整合多组学数据并利用机器学习算法进行基因组预测?
  • DPCformer:一种用于作物基因组预测的可解释深度学习模型
  • Kubernetes端口列表与安全分析
  • Kubernetes端口列表与安全分析
  • 《程序员修炼之道:从小工到专家》笔记2
  • android 基于okhttp的socket封装 - 实践
  • 2025 年 10 月门窗十大品牌榜单揭晓,专业制造与耐用售后口碑之选
  • 2025 年 10 月门窗十大品牌榜单揭晓,专业制造与安全定制口碑之选
  • 线段树理论
  • [ICML2023]CLIPood Generalizing CLIP to Out-of-Distributions
  • 最短路学习笔记
  • 语文_阅读_The power of curiosity in science_待读
  • 大学课堂“走神危机”,认真听讲能否破局?
  • 【数据分析】基于大内容的葡萄酒品质内容可视化分析体系 | 大数据毕设实战项目 选题推荐 文档指导+ppt+运行部署 Hadoop+SPark+java
  • 无符号整型左移33位
  • 跨被动为主动:认真听讲,坚持实践
  • 深入理解:Spring Environment
  • 以专注之姿,赴求知之约
  • 认真听讲,是大学最好的修行
  • 20232328 2025-2026-1《网络与系统攻防技术》实验三实验报告
  • 英语_阅读_Meeting
  • 《程序员修炼之道:从小工到专家》阅读笔记3
  • 我的一个oier朋友
  • K8s注解的指令功能:从元数据到控制逻辑
  • 磁盘格式化和LVM挂载
  • 2232
  • 123133
  • 1123
  • 研零学习笔记
  • 2025.10.26——1绿