当前位置: 首页 > news >正文

植物基因组遗传冗余:从功能解析到育种应用的新思路

基因重复是植物基因组的一个显著特征。大量研究表明,植物基因组中50%至90%的基因属于可能发生功能冗余的基因家族。在多倍体作物中,这一比例往往超过90%。这种冗余现象使得单个基因的功能难以通过传统遗传学手段进行解析,也给作物改良带来了实质性的阻碍。

近期来自以色列特拉维夫大学等机构发表于《Trends in Plant Science》的一篇综述系统梳理了植物遗传冗余的形成机制、对功能基因组学和育种工作的影响,以及当前应对这一挑战的技术路径。

图片

基因重复的普遍性与冗余类型

基因重复在植物中广泛存在,其来源包括全基因组加倍、串联重复、近端重复、转座重复等多种机制。通过对98个植物基因组的分析,PLAZA和Ensembl Plant两个数据库分别显示平均有74%和75%的基因属于某个基因家族。在二倍体物种中,这一比例从橄榄的80%到拟南芥的75%不等;而在多倍体作物中,比例进一步提高,例如棉花从二倍体的82%上升至多倍体的92%,小麦也有约10%的增幅。

作者将遗传冗余细分为几种类型。完全冗余下,单个基因的缺失不产生表型效应,只有同时破坏两个或以上功能相似的基因才会显现表型。部分冗余时,基因之间功能重叠但各自也有独特作用,单基因缺失仅导致轻微或条件依赖的表型。不等冗余则表现为一个基因承担主要功能,另一个提供部分缓冲。条件冗余最为隐蔽,补偿作用在正常条件下不显现,只在胁迫或特定发育阶段才被激活。

这些不同类型的冗余在进化上各有意义。完全冗余可以缓冲必需功能免受突变损失,稳定发育过程。部分和不等冗余允许一个基因保留核心功能,另一个发生分化,从而平衡功能稳健性与进化创新。条件冗余则在波动环境中具有优势,补偿功能仅在需要时启动,减少在良好条件下的适应成本。

遗传冗余的不同类型。
遗传冗余的不同类型。

冗余带来的实际挑战

遗传冗余对功能基因组学和育种工作构成三方面的问题。第一是表型掩盖。当一个基因家族成员功能重叠时,单基因敲除往往被其他成员补偿,导致表型微弱或缺失。拟南芥中一项针对2400个基因的研究发现,在401个被详细分析的基因中,表型只在成对旁系同源基因同时被破坏时才出现。DUPLO双突变体库也系统展示了大量冗余基因对的存在。

第二是研究瓶颈。识别潜在冗余基因需要复杂的生物信息学分析或大量实验验证。即使找到候选基因,构建高阶突变体也非常耗时,尤其对于成员数量较多的基因家族。

第三是育种难题。冗余基因常以串联形式存在于基因组中,紧密的遗传连锁使得通过重组进行分离变得困难,限制了精细定位和有利等位基因的聚合。在多倍体作物中,同源拷贝之间的缓冲作用使得单个位点的自然变异往往表现为小效应QTL,难以直接用于选择。小麦的白粉病感病性由三个MLO同源基因共同控制,只有同时破坏三个拷贝才能获得抗性,这清楚说明了单一位点选择在存在同源冗余时的不足。

被子植物基因组中基因家族基因的分布情况。
被子植物基因组中基因家族基因的分布情况。

预测冗余的计算方法

最直接的预测方法是基于氨基酸序列相似性,使用BLAST或OrthoFinder等工具。但序列相似性并非可靠指标,因为表达模式和调控因素同样重要。CAFRI工具整合了序列相似性与不同组织、发育阶段和环境条件下的表达模式,提高了预测准确性。

机器学习方法在过去十多年中不断进步。2010年的一项研究使用支持向量机,发现等电点和分子量的差异比单纯的序列相似性更能预测冗余。2021年的研究将预测特征扩展到六大类生物信息,包括功能注释、进化特性、蛋白特征、表达模式、表观修饰和网络互作,模型AUC达到0.84。2024年的研究进一步采用深度学习方法,整合更大规模的基因组和蛋白质组数据,提高了跨物种预测的可靠性。

这些模型面临的一个根本性困难是训练数据的质量。冗余分类并不总是清晰的,许多基因只在特定条件下才表现出冗余。因此,被标注为非冗余的旁系同源基因对可能只是因为尚未在合适的条件下进行检测,而并非真正不冗余。未来需要结合大规模CRISPR敲除研究和多条件表型分析来构建更完善的数据集。

影响基因对之间遗传冗余可能性的因素。
影响基因对之间遗传冗余可能性的因素。

克服冗余的基因编辑策略

预测工具的进步为后续的实验验证提供了靶点。克服冗余需要同时编辑一个家族中的多个基因。由于这些基因往往存在遗传连锁,传统诱变或杂交方法效率低下。CRISPR技术提供了两条主要路径。

第一条路径是设计单个sgRNA靶向多个基因的保守序列。在拟南芥中,研究者使用这种方法同时破坏了五个或六个AITR家族基因,获得的突变体在干旱和盐胁迫下表现出更强的耐受性且没有生长代价。CRISPRs算法利用CRISPR-Cas系统的不完全特异性,允许sgRNA与靶点之间存在有限数量的错配,从而用一个sgRNA编辑更多基因,尽管错配可能降低编辑效率。

第二条路径是构建携带多个sgRNA的多重载体。在大豆中,研究者同时靶向EIL3、EIL4和EIN2L三个乙烯信号基因,获得的三重突变体开花提前约7天,产量比野生型提高1.65倍。

在基因组规模上,多个研究团队已构建了CRISPR文库。在拟南芥和番茄中,研究者开发了全基因组CRISPR文库,并按功能或组织表达特异性分为子文库,成功鉴定出与果实性状、胁迫响应和激素运输相关的新表型。在棉花中,针对CDPK基因家族的CRISPR突变体库通过高效诱变和田间筛选,发现了参与昆虫抗性的关键调控因子。

利用CRISPR文库策略研究冗余背景下基因功能的示意图。
利用CRISPR文库策略研究冗余背景下基因功能的示意图。

未来方向

作者指出,未来几年冗余功能基因组学将从识别冗余对转向绘制冗余作为条件特异性基因模块的图谱,覆盖不同组织、环境和发育阶段。这需要将大规模多重扰动与标准化高通量表型分析结合起来。单细胞和空间转录组学方法将有助于在细胞分辨率上解析冗余的发生位置、信号来源与靶细胞,以及胁迫下冗余网络的重塑方式。

计算模型将超越序列和整体表达数据,整合调控逻辑(染色质状态、增强子-启动子接触、三维基因组组织)、蛋白互作动态和代谢通量约束,提高在不同物种和多倍体基因组间的可迁移性。

在育种应用方面,需要将多重编辑与等位基因聚合、拷贝特异性基因分型相结合,并管理连锁和脱靶风险,使多位点解决方案能够在优良种质中高效部署。

农作物前沿技术专题课程:从分子辅助到智能设计

测序进入百元时代!量大还有优惠

【项目案例】7个主流基因组选择(GS)算法,直接套用你的数据发表文章

图片

欢迎加入生信AI育种交流群,一群已满,请添加小编微信拉你加入二群,请备注“姓名-单位”,方便交流~~~

图片

http://www.jsqmd.com/news/654646/

相关文章:

  • Qwen3-ForcedAligner-0.6B多场景落地:智能硬件语音指令日志结构化分析
  • PP-DocLayoutV3企业应用:保险理赔材料中表格/手写区/印章区协同识别方案
  • Quartus II原理图输入法实战:从半加器到4位全加器的完整设计流程
  • 构建百度网盘直链解析系统:从限速瓶颈到高速下载的技术实现
  • 8大网盘直链解析神器:告别限速困扰,一键获取高速下载地址
  • Phi-4-mini-reasoning镜像免配置:内置Prometheus指标暴露与Grafana看板
  • VOOHU 沃虎电子 景略千兆以太网PHY芯片 JL2201B-NC RGMII/SGMII接口 支持铜缆与光纤 适用于交换机与工业通信
  • WeChatExporter:终极指南 - 如何在Mac上完整备份和导出微信聊天记录
  • Git-RSCLIP遥感图像智能分类:支持中英文混合标签输入的实测效果分享
  • 终极解决方案:在Windows 10/11中免费启用HEIC缩略图预览的完整指南
  • 开源项目合规指南:从PyWxDump案例看如何避免法律风险
  • EcomGPT-7B效果实测:AI生成的Temu商品标题CTR较人工提升28%(A/B测试)
  • 构建管理化技术持续集成流水线优化
  • 八大网盘直链下载助手:你的云端文件下载革命
  • 小红书数据采集终极指南:Python爬虫工具xhs完整使用教程
  • MedGemma X-Ray开箱即用:一键部署医疗影像智能分析平台
  • 5步掌握大麦网自动抢票脚本:从手动绝望到智能抢票的蜕变
  • 具身智能RDT模型在lerobot机械臂上的性能优化与实战对比
  • Audiveris:免费开源乐谱识别工具的完整指南
  • 终极指南:如何用Supersonic打造您的专属音乐播放中心
  • 大气层系统:15分钟解锁Nintendo Switch完整功能的终极指南
  • ME51采购申请行自定义字段增强
  • IgH EtherCAT 从入门到精通:第 7 章 应用程序接口(API)体系
  • 如何快速掌握UnrealPakViewer:面向开发者的完整Pak文件分析指南
  • 3步解锁城通网盘满速下载:ctfileGet开源工具完全指南
  • Docker 下配置 Pgsql 主从复制详细步骤指南
  • AS56XX 60V 350mA 低静态电流2.1uA,PSRR: 70dB at 1kHZ具有使能功能
  • 图表数据提取终极指南:用WebPlotDigitizer告别手动抄录的烦恼
  • 嵌入式开发踩坑记:为ARM平台交叉编译parted 3.1,解决uClibc的locale报错
  • Steam成就管理革命:你的智能游戏成就伴侣