当前位置: 首页 > news >正文

当作物生长模型遇上基因组选择:1+1 2 的育种新范式

经典的基因组选择思路尽可能剔除环境等非遗传因素影响来预测动植物表型,随着机器学习逐渐广泛应用,GxE越来越流行。

而作物生长模型以作物生长发育的内在规律为基础,综合作物遗传潜力、环境效应、调控技术之间的因果关系,定量描述和预测作物生长发育过程及其与环境的动态关系,通常用来预测品种环境区域适应性。

这两者有着天然的联系,我记得几年前有研究(好像是发表JXB)就构建了一个融合模型。今日要分享的也是一项类似的研究,希望能给大家一点启发。

分享去年发表在Plant Phenomics上的一篇文章:Integrating crop models, single nucleotide polymorphism, and climatic indices to develop genotype-environment interaction model: A case study on rice flowering time,该文系统提出并验证了一种整合多源数据与模型的水稻开花时间预测方法。

图片


背景与意义

作物表型由基因型(G)环境(E) 及其相互作用(G×E) 共同决定。传统的作物模型虽能模拟生长过程,但对遗传机制的刻画不足,难以准确预测不同基因型在多变环境下的表现。随着基因组学的发展,利用SNP数据预测基因型特异性参数(GSPs)成为提升模型预测能力的关键。本研究旨在整合作物模型、SNP数据和气候指标,构建可解释性强、预测精度高的G×E模型,为水稻分子育种和表型预测提供支持。


研究方法

1. 数据来源

  • 使用169个水稻基因型,在非洲多个地点和播期种植,获取开花时间数据。

  • 每个基因型包含70万个SNP标记,经筛选后保留约28万个高质量SNP。

  • 气象数据用于计算多种气候指标(如生长度日GDD、热度日HDD、辐射RAD等)。

2. 作物模型与GSPs

  • 采用三个水稻生长模型:ORYZA、CERES-Rice、RiceGrow。

  • 通过MCMC方法校准各基因型的GSPs,用于模拟开花时间。

3. 基因型-参数关联分析

  • 使用多种GWAS方法(单点+多点)识别与GSPs关联的QTNs。

  • 注释相关基因,验证GSPs的遗传可解释性。

4. SNP预测GSPs

  • 采用岭回归(Ridge)和rrBLUP两种基因组预测方法,基于SNP预测GSPs。

  • 将预测的GSPs输入作物模型,预测开花时间。

5. 机器学习修正

  • 利用随机森林(RF)和XGBoost,结合气候指标对作物模型预测结果进行修正。

图片


主要结果

1. GSPs的分布与遗传关联

  • GSPs在群体中呈正态或双峰分布,部分参数(如光周期相关参数)变异性大。

  • 多GWAS方法识别出多个与已知开花基因(如DTH2、DTH3、OsCOL15)相关的QTNs,验证了GSPs的遗传基础。

图片

2. SNP预测GSPs的表现

  • 在训练集中,Ridge和rrBLUP的NSE分别为0.87和0.88,但在测试集中降至0.44和0.43。

  • 不同模型对SNP预测的敏感性不同,RiceGrow因参数结构复杂,预测精度下降最明显。

图片

3. 开花时间预测精度

  • 使用SNP预测的GSPs(Step1)预测开花时间,精度显著低于传统校准模型(Fit)。

  • 经机器学习修正(Step2)后,各模型预测精度基本恢复至Fit水平,部分模型表现更优。

  • 多模型集成(MME)在各阶段表现稳健,与最优单一模型相当。

图片

4. 气候指标的重要性

  • 在XGBoost模型中,GDD(播种后100天)是最重要的预测因子。

  • 其他气候指标(HDD、RAD、DAYL等)的重要性在不同模型中存在差异。


讨论与结论

讨论要点

  • GSPs的遗传分析有效,但模型结构差异(如光周期处理方式)影响预测表现。

  • SNPs预测GSPs的精度有限,主要由于GSPs的遗传机制复杂且模型对参数敏感。

  • 机器学习能有效补偿作物模型的机制缺陷,尤其是在极端气候条件下。

  • 多模型集成有助于降低单一模型偏差,提升预测鲁棒性。

结论

本研究成功构建了一种整合作物模型、SNP数据和气候指标的G×E模型,在保持遗传可解释性的同时,显著提升了对水稻开花时间的预测能力。该方法为数字化育种、表型预测和气候适应型品种选育提供了有力工具。


小编评语

本文不同于传统基因组选择(GS)用SNP直接预测表型(如开花时间)。采用两步走的策略:

  • 第一步(基因组预测):利用SNP数据,通过Ridge和rrBLUP等方法,预测每个基因型的作物模型参数(GSPs)。这一步本质上就是“基因组选择”在模型参数上的应用。

  • 第二步(过程模拟):将预测得到的GSPs输入到作物生长模型(ORYZA、CERES-Rice、RiceGrow)中,模拟出最终的表型(开花时间)。

可见,基因组选择在这里并没有直接预测表型,而是预测了作物模型中具有生物学意义的中间参数,实现了“基因型 → 模型参数 → 表型”的链条。

这样结合有何优势:

  • 增强可解释性:GSPs(如光周期敏感性、温度响应)本身具有生理意义,通过GWAS可以关联到已知功能基因(如DTH2、OsCOL15),比“黑箱”式的基因组选择更具生物学解释力。

  • 融合过程知识:作物模型包含了温度、光照等环境因子的非线性响应机制,使得预测在不同环境下更具外推性,而纯统计的基因组选择在未经历的环境中往往表现不佳。

  • 应对G×E:这种结合天然考虑了基因型与环境的交互作用,因为作物模型本身就通过气象数据驱动来响应环境变化。

当然,在“基因组选择 + 作物模型”的基础上,作者还加入了气候指标与机器学习(XGBoost)修正的第三步,形成“机理模型 + 基因组预测 + 数据驱动修正”的混合建模框架,进一步提升了预测精度和鲁棒性。


往期扩展:

  • 【项目案例】定制7种常见基因组选择(GS)模型的核心代码

  • 作物生长模型CropGrow

  • 农业机理模型知多少?

图片

欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~

图片

【项目案例】定制7种常见基因组选择(GS)模型的核心代码

测序进入百元时代!

设计育种系列课程——开启“育种5.0”时代的钥匙!

http://www.jsqmd.com/news/606793/

相关文章:

  • 御坂翻译器:突破语言壁垒的Galgame实时翻译解决方案
  • 伏羲模型:人工智能技术在中期天气预报领域的革命性应用
  • 如何在macOS上解锁QQ音乐加密文件:QMCDecode完全指南
  • 避坑指南:EXT151(QRC)安装中那个‘OA库不存在’的报错,我是这样解决的
  • 【Matlab】MATLAB教程:ode15s求解刚性方程(含化工/控制仿真应用)
  • 深求·墨鉴场景应用:古籍数字化原来可以这么简单优雅
  • 最新且精准的响应:RAG相比静态训练数据的优势
  • 避开这3个坑,你的线结构光标定精度立马提升:从图像采集到参数验证全流程避雷指南
  • 随笔——视觉惯性SLAM方法比较
  • 3分钟搞定!Calibre豆瓣插件安装全攻略,轻松获取中文图书元数据
  • 本科生也能冲:大模型实习准备指南
  • 如何在Windows上实现MacBook级别的三指拖拽体验:ThreeFingerDragOnWindows完整指南
  • 大模型开发入门:三大项目带你快速上手AI应用开发
  • CSS如何通过Sass实现投影阴影封装_通过函数动态调节阴影深度
  • 重启不用输 PIN!Android 17 终于把 SIM 卡安全做明白了
  • 如何实现AI到PSD的无损转换?告别矢量信息丢失的终极方案
  • 第十七节:数据库直连技能——SQL查询与数据分析
  • 3步突破艾尔登法环帧率限制:专业玩家的性能优化指南
  • EasyESPConnect:基于NVS的轻量级ESP32 WiFi配置库
  • 【Matlab】MATLAB教程:微分方程参数估计(含拟合案例与系统参数辨识应用)
  • 320x240 TFT屏的SPI DMA驱动避坑指南:基于HC32F460的时序调试心得
  • OpenClaw跨平台控制:Qwen3.5-9B管理多台设备
  • MPI并行编程避坑指南:实现Cannon算法时,你的进程通信真的高效吗?
  • 你的云服务器在偷偷挖矿吗?手把手教你用top命令和阿里云安全中心揪出‘矿工’
  • 技术赋能创作自由:ncmdump破解NCM格式枷锁全指南
  • 2026地学最新调剂信息:北京师范大学、合肥工业大学、兰州大学、广州大学、宁波大学等
  • FIFOEE:嵌入式EEPROM轻量级持久化环形缓冲区
  • 别再只会调PID了!手把手教你用MATLAB/Simulink搞定直流电机双闭环调速(附R2018b模型)
  • Hotkey Detective:Windows热键冲突终极解决方案,让每个快捷键都精准响应
  • ASVspoof挑战赛冠军方案拆解:用CNN+ResNet检测伪造语音的7个关键技巧