当前位置: 首页 > news >正文

多个基因组选择模型该如何加权集成?

近日,澳大利亚昆士兰大学Mark Cooper 教授团队在 bioRxiv 上发表了题为“Improved Ensemble Performance by Weight Optimisation for the Genomic Prediction of Maize Flowering Time Traits”的论文,该研究深入探讨了加权集成平均模型在玉米基因组预测中的应用潜力。

图片


研究背景与意义

1.1 基因组预测与集成学习

基因组预测(Genomic Prediction, GP)是现代作物育种的核心技术,通过基因组标记预测性状表型,可缩短育种周期、降低成本。然而,单一预测模型难以应对复杂性状的不同遗传架构,因此集成学习(Ensemble Learning)成为研究热点——通过组合多个模型的预测结果,利用"多样性预测定理"(Diversity Prediction Theorem)降低整体预测误差。

1.2 研究动机

  • 朴素集成平均模型(Naïve Ensemble):简单地对所有个体模型赋予相等权重,虽能提升基线性能,但忽略了不同模型间的预测能力差异

  • 加权集成优化:通过为不同模型分配差异化权重,理论上可进一步提升预测性能

  • 研究空白:权重优化在动物育种中已有应用,但在作物育种中研究不足

1.3 研究目标

  1. 比较三种加权集成方法与朴素集成基准的性能

  2. 分析个体模型多样性对集成预测性能的影响

  3. 识别哪种加权方法能持续提升预测性能


材料与方法

2.1 数据集

|
数据集
|
群体来源
|
群体数
|
RILs数量
|
遗传多样性
|
性状
|
| --- | --- | --- | --- | --- | --- |
| TeoNAM |
W22 × 5个teosinte(玉米野生祖先)
|
5个
|
438-616
|
(驯化前变异)
|
DTA, ASI
|
| MaizeNAM |
B73 × 25个自交系
|
25个
|
126-196
| 较低
(驯化后精英系)
|
DTA, ASI
|

  • DTA(散粉期天数):遗传架构较明确,有已知关键调控基因

  • ASI(散粉-吐丝间隔):由DTA和DTS衍生的次级性状,遗传架构更复杂

2.2 个体基因组预测模型(6个)

|
类型
|
模型
|
特点
|
| --- | --- | --- |
| 参数/半参数模型 |
rrBLUP
|
线性混合模型,标记效应正态分布
|
| |
BayesB
|
标记效应混合分布(零效应+t分布)
|
| |
RKHS
|
再生核希尔伯特空间回归,核函数映射
|
| 机器学习模型 |
RF
|
随机森林,1000棵树
|
| |
SVR
|
支持向量回归,RBF核
|
| |
MLP
|
多层感知机神经网络
|

2.3 三种权重优化方法

(1)线性变换集成(Linear Transformation)

  • 方法:神经网络方法,6个神经元(对应6个模型)+ 可训练权重

  • 优化目标:最小化验证集均方误差(MSE)

  • 训练设置:150轮,Adam优化器,早停机制(耐心值=10)

(2)Nelder-Mead集成

  • 方法:启发式单纯形算法优化权重

  • 优化目标:基于多样性预测定理最小化集成误差

  • 核心公式

(最小化加权个体误差 - 加权预测多样性)

(3)贝叶斯集成(Bayesian)

  • 方法:贝叶斯优化,代理模型+采集函数

  • 优化目标:最大化上述目标函数的倒数

  • 采集函数:期望改进(Expected Improvement)

2.4 评估设计

  • 数据划分:训练集(50%) : 验证集(25%) : 测试集(25%)

  • 重复次数:TeoNAM每群体500次 → 共2,500场景;MaizeNAM每群体50次 → 共1,250场景

  • 评估指标:Pearson相关系数(准确性)、MSE(误差)

  • 多样性量化:多样性/平均误差比值(第三项/第二项)


主要结果

3.1 加权集成对DTA有效,对ASI无效

DTA(散粉期天数)

  • TeoNAM:所有加权集成均显著优于朴素集成

  • 朴素集成:r=0.780, MSE=14.239

  • Nelder-Mead最优:r=0.879(↑12.7%), MSE=8.448(↓40.6%)

  • MaizeNAM:加权集成略有提升,但幅度较小

  • 朴素集成:r=0.596, MSE=2.599

  • Nelder-Mead最优:r=0.625(↑4.9%), MSE=2.436(↓6.3%)

ASI(散粉-吐丝间隔)

  • 朴素集成与三种加权集成性能相当

  • TeoNAM:r≈0.47, MSE≈4.5;MaizeNAM:r≈0.43, MSE≈0.46

  • 加权优化未带来明显改进

3.2 不同性状的最优权重分配模式迥异

DTA的权重分配(图3a):

  • 参数/半参数模型占主导(TeoNAM平均77.3%,MaizeNAM平均68.7%)

  • BayesB和RKHS获得最高权重,权重差异大(多样化分配)

  • 机器学习模型权重较低且集中

ASI的权重分配(图3b):

  • 机器学习模型权重上升(TeoNAM平均55.5%,MaizeNAM平均47.2%)

  • 各模型权重差异小,接近朴素集成的均等分配(0.17)

  • SVR在TeoNAM中获得较高权重(0.28)

3.3 多样性预测定理的解释力

|
数据集
|
性状
|
多样性/误差比
|
最优方法
|
| --- | --- | --- | --- |
|
TeoNAM
|
DTA
|
0.778(贝叶斯)
|
加权集成显著优于朴素
|
|
MaizeNAM
|
DTA
|
0.409(贝叶斯)
|
加权集成略优于朴素
|
|
TeoNAM
|
ASI
|
0.146(朴素)
|
加权集成无优势
|
|
MaizeNAM
|
ASI
|
0.112(贝叶斯)
|
加权集成无优势
|

关键发现:当加权方法能显著提升多样性/误差比时(如TeoNAM的DTA),预测性能改进明显;当该比值无显著提升时(如ASI),加权优化无效。

3.4 集成模型间的高相似性

  • 表型预测层面:MaizeNAM相关性极高(DTA: r=0.990, ASI: r=0.982)

  • 标记效应层面:各染色体区域效应模式高度一致

  • 遗传架构:Circos图显示各集成模型识别的关键基因组区域相似,且与已知QTL重叠


讨论

4.1 加权集成性能的影响因素

(1)个体模型遗传架构推断的准确性

  • DTA:遗传架构相对简单明确,个体模型能较准确捕获关键基因效应 → 加权优化有空间提升性能

  • ASI:作为次级性状,受DTA、DTS及GxE互作影响,遗传架构复杂 → 个体模型推断不准确 → 加权优化难以找到更优权重组合

(2)个体模型间的多样性水平

  • TeoNAM:遗传多样性高,个体模型推断的遗传架构差异大 → 加权优化通过差异化权重利用多样性,性能提升显著

  • MaizeNAM:遗传多样性低,个体模型结果趋同 → 加权优化空间受限

4.2 "无免费午餐"定理的体现

  • 三种加权方法无一致最优者,性能因性状和数据集而异

  • 多种权重组合可达到相近的预测性能(权重空间存在多个局部最优)

  • 启示:不存在 universally best 的加权策略,需根据具体问题定制

4.3 未来研究方向

(1)整合遗传架构先验知识

  • 将已知基因调控网络作为图结构先验,结合图神经网络(GNN)构建问题特异性模型

(2)超参数与权重联合优化

  • 当前研究固定个体模型超参数,仅优化集成权重

  • 联合优化公式

  • 通过调整超参数增加模型多样性,再结合权重优化,可能达到全局更优


结论

  1. 加权集成方法在特定场景下有效:对于遗传架构较明确、个体模型多样性高的性状(如TeoNAM的DTA),三种加权方法均显著优于朴素集成

  2. 性能提升具有条件依赖性:当朴素集成已接近最优权重(如ASI),或个体模型推断不准确时,加权优化难以改进

  3. 方法间无绝对优劣:三种优化策略性能相近,符合"无免费午餐"定理

  4. 实践建议:加权集成值得进一步探索,特别是结合超参数调优的联合优化框架


关键图表索引

图1:研究流程图(数据划分→个体模型训练→权重优化→评估)
图1:研究流程图(数据划分→个体模型训练→权重优化→评估)
图2:预测性能小提琴图(DTA vs ASI,TeoNAM vs MaizeNAM)
图2:预测性能小提琴图(DTA vs ASI,TeoNAM vs MaizeNAM)
图3:权重分配堆叠条形图(不同性状的最优权重模式对比)
图3:权重分配堆叠条形图(不同性状的最优权重模式对比)
图4:模型间相关性散点图矩阵
图4:模型间相关性散点图矩阵
图5:Circos图展示遗传架构推断结果
图5:Circos图展示遗传架构推断结果

图片

欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~

图片

http://www.jsqmd.com/news/408508/

相关文章:

  • github copilot cli使用指南
  • 创客匠人技术解构:AI智能体如何重构知识生产与交付的底层逻辑
  • 领嵌边缘AI云盒子内置6TOPS算力八核64位CPU支持多种算法
  • langgraph学习笔记——持续更新ing
  • 盘点亳州摄影学校选哪家好,徽尚多班型适配需求超好用 - 工业品网
  • 智造之光,引领未来:探秘全球激光智造领军者 —— 华工激光(HGLASER) - 品牌评测官
  • 从知识生产到智能变现:AI智能体如何重构知识付费的底层逻辑|创客匠人
  • 京东商品评论API接口封装的心路历程
  • 2026年智慧驾培公司价格盘点,河北唐道网络科技费用情况 - mypinpai
  • 2026年2月口碑不错的永真片产品,这份推荐排行请收好,养胃颗粒/人参方/生脉饮/抗衰老片/永真片,永真片品牌推荐排行榜 - 品牌推荐师
  • 芯片封装设计软件怎么选?2026支持AI自动化的芯片封装设计软件推荐 - 品牌2025
  • 2026年铝合金衬PB复合管厂家推荐,这些品牌值得信赖,铝合金衬塑复合管,铝合金衬PB复合管企业如何选 - 品牌推荐师
  • C++中的命名规范
  • 2026年茶歇厂家推荐:茶歇文化/茶歇服务/公司茶歇定制/冷餐会公司/冷餐会宴会/冷餐会承接/冷餐茶歇/选择指南 - 优质品牌商家
  • 别再盲目拨打!2026年企业微信官方服务热线高效求助指南 - 品牌2025
  • 锦州电气自动化公司怎么选?2026年优选攻略,中低压电气/工控产品/施耐德电气/电气自动化,电气自动化厂商口碑推荐 - 品牌推荐师
  • 聊聊2026年保险粉生产技术,投资成本高吗 - 工业设备
  • 盘点2026年靠谱的纸飞机主题乐园,儿童乐园纸飞机口碑哪家好 - 工业品牌热点
  • 2026年在上海怎么快速找到靠谱的阿里云企业邮箱代理? - 品牌2025
  • 使用 certbot docker镜像生成阿里云域名ssl证书
  • 2026年企业微信问题咨询电话官方最新公布,一键直达人工客服 - 品牌2025
  • 2026年伺服压力机正规供应商排名,这些品牌值得推荐 - 工业推荐榜
  • 2026贝赛思入学备考机构推荐,优质辅导机构、特训班、冲刺班与提分特训机构推荐 - 品牌2025
  • 氨糖软骨素品牌排行榜,2026热选产品榜,第一名养护关节回购率超高 - 资讯焦点
  • 2026年冷餐会厂家权威推荐榜:公司茶歇定制/冷餐会公司/冷餐会宴会/冷餐会承接/冷餐茶歇/外送冷餐会/选择指南 - 优质品牌商家
  • profinet嵌入式板卡 光伏逆变器数据采集升级方案(核心技术重构版)
  • 暗场校正(Dark Correction)
  • 2026年S系列减速机工厂优选:服务与质量并重,立式螺旋锥齿轮减速机/行星摆线针轮减速机,S系列减速机实力厂家怎么选 - 品牌推荐师
  • 华工激光(HGLASER):激光装备领域龙头标杆,全产业链赋能高端制造 - 品牌评测官
  • 2026年最新企业微信官方服务电话及高效接通技巧 - 品牌2025