Hi-C与三维基因组:染色质互作图谱的构建、分析与拓扑结构域识别
点击“AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力,沉浸式云原生集成开发环境,80G大显存多卡并行,按量弹性计费,教育用户更享超低价。
摘要:染色质在细胞核内的三维空间构象对基因表达、DNA复制和修复等生物学过程具有重要调控作用。Hi-C技术通过高通量测序捕获全基因组染色质互作信息,为解析三维基因组结构提供了强大工具。本文系统阐述Hi-C实验原理与数据分析完整流程,从原始数据处理、比对、接触矩阵生成到归一化,深入解析拓扑结构域(TAD)和染色质环的识别算法(如HiCExplorer、Cooler、Juicer、TADbit、HiCCUPS),探讨A/B区室、活性/非活性区室的划分方法,并介绍多组学数据整合策略及在发育、疾病研究中的应用。通过实际案例展示如何从Hi-C数据中挖掘染色质空间组织的生物学意义,为研究者提供三维基因组分析的系统性指南。
关键词:Hi-C;三维基因组;拓扑结构域;染色质互作;A/B区室;接触矩阵
1. 引言
真核生物的基因组并非线性结构,而是在细胞核内折叠成复杂的三维空间构型。这种空间组织对基因表达调控、DNA复制、修复和染色体易位等过程至关重要。过去十年,随着高通量染色质构象捕获技术的突破,特别是Hi-C(High-throughput Chromosome Conformation Capture)技术的出现,我们能够在全基因组尺度上绘制染色质相互作用图谱,揭示基因组空间组织的层级结构:从染色质区室(A/B compartments)到拓扑关联结构域(TADs),再到点状染色质环(loops)。
Hi-C技术通过交联、酶切、连接和测序,捕获基因组中空间上邻近的DNA片段,构建全基因组互作网络。这些数据不仅帮助我们理解基因调控的物理基础,也为疾病相关非编码变异的机制解析提供了新维度。例如,许多GWAS位点位于TAD边界或增强子-启动子环内,提示其功能依赖于空间结构。
本文将从实验原理出发,系统介绍Hi-C数据分析的完整流程,包括数据预处理、归一化、互作矩阵构建、TAD识别、环检测、区室划分等核心环节,并探讨三维基因组与转录组、表观组整合的策略及应用。
2. Hi-C技术原理与实验流程
2.1 基本原理
Hi-C由Lieberman-Aiden等人于2009年首次发表,其核心思想是“空间邻近的DNA片段在交联后形成嵌合分子”。实验流程:
- 细胞交联:用甲醛固定细胞,将空间邻近的蛋白质-DNA复合物交联。
- 染色质消化:使用限制性内切酶(如MboI、HindIII)切割染色质。
- 末端标记与连接:在切割末端补加生物素标记的核苷酸,然后使用DNA连接酶在稀释条件下连接邻近的片段,形成嵌合DNA分子。
- 逆转交联与纯化:去除蛋白质,纯化DNA。
- 文库构建与测序:通过链亲和素磁珠富集生物素标记的连接产物,构建测序文库,通常使用Illumina平台双端测序。
2.2 关键质控指标
- 有效读段比例:比对后唯一比对的读段比例(通常>70%)。
- 顺式互作比例:同一染色体上的互作占总互作的比例(通常>80%)。
- 远距离互作比例:距离>20 kb的互作比例,反映长程相互作用。
- 重复相关性:生物学重复间接触矩阵的Pearson相关系数。
3. 数据预处理与接触矩阵生成
3.1 比对
Hi-C读段为双端,代表一对互作的DNA片段。常用比对工具:
- BWA-MEM:常用比对器,需考虑嵌合比对。
- Bowtie2:快速,但需处理跨连接点的读段。
- HiC-Pro:集成流程,自动处理双端比对、过滤、生成接触矩阵。
关键步骤:
- 将双端读段分别比对到参考基因组。
- 筛选唯一比对的读段对。
- 去除读段对中两个端比对到相同位置(自连接)的读段。
- 过滤PCR重复(通过比对坐标和片段大小)。
3.2 接触矩阵构建
将基因组划分为等距或等长的bin(如1 kb、10 kb、40 kb、100 kb),统计每个bin对之间的连接读段数,形成接触矩阵。矩阵大小为N×N(N为bin数),稀疏矩阵格式(如.cool、.hic)节省存储。
3.3 归一化
原始接触矩阵受多种技术偏差影响:限制性片段长度、GC含量、mappability等。需要归一化以消除偏差:
- ICE(Iterative Correction and Eigenvalue decomposition):最常用,通过迭代比例缩放使每个bin的行和列总和一致。
- KR(Knight-Ruiz):基于矩阵平衡的快速归一化方法。
- SQS(Sequential Quadratic Programming):用于高阶交互。
常用工具:HiC-Pro、Juicer、Cooler、hicstuff。
4. 拓扑结构域(TAD)识别
TAD是染色质空间折叠的基本单元,内部相互作用强,而相邻TAD间相互作用弱。TAD边界通常与基因边界、转录因子结合位点、CTCF位点等相关。
4.1 TAD识别算法
4.1.1 基于方向性指数(DI)的方法
- 方向性指数(DI):计算每个bin相对于上下游的互作偏倚,DI值从正变负或反之的位置为TAD边界。
- 工具:HiCExplorer、Juicer的
hicFindTADs。
4.1.2 基于绝缘分数(Insulation Score)的方法
- 计算每个bin的绝缘分数(与上下游互作强度的比例),局部最小值对应边界。
- 工具:HiCExplorer、cooltools。
4.1.3 基于隐马尔可夫模型的方法
- 将染色体划分为隐藏状态,状态间转移对应TAD边界。
- 工具:TADbit、ChromHMM(可扩展)。
4.1.4 基于图像分割的方法
- 将接触矩阵视为图像,使用图像分割算法识别TAD。
- 工具:TADsplimer、CaTCH。
4.2 常用工具
| 工具 | 语言 | 方法 | 输出 | 特点 |
|---|---|---|---|---|
| HiCExplorer | Python | Insulation score, DI | BED, bigWig | 集成流程,可视化好 |
| Juicer | Java | DI | BED | 与Juicebox配套 |
| TADbit | Python | HMM, 3D建模 | BED, 结构 | 功能全面,支持下游建模 |
| cooltools | Python | Insulation, saddle | 多种 | 与Cooler生态集成 |
4.3 TAD边界功能注释
TAD边界富集以下特征:
- CTCF结合位点:边界区域CTCF信号强烈。
- 活性基因:边界处通常有高表达基因。
- 看家基因:边界附近基因表达稳定。
- SINE/Alu元件:边界区域转座子富集。
5. 染色质环(Loops)与长程互作检测
染色质环是TAD内部的点状互作,通常连接增强子与启动子。检测环需要高分辨率数据(通常≤10 kb)。
5.1 主流算法
5.1.1 HiCCUPS
由Juicer团队开发,通过比较局部接触矩阵与背景期望,识别显著富集的互作点。步骤:
- 计算每个bin对的期望接触(基于距离和归一化)。
- 使用泊松模型或倍数变化确定显著互作。
- 输出显著环,通常要求FDR<0.05。
5.1.2 Fit-Hi-C
基于二项式模型,拟合距离-互作关系,识别显著互作。
5.1.3 HOMER
使用“findHiCInteractions”模块,基于局部富集检测环。
5.1.4 Mustache
基于接触矩阵的斑点检测,速度快,适用于高分辨率。
5.2 环的功能特征
- 增强子-启动子环:连接增强子和启动子,与活跃基因表达相关。
- CTCF-CTCF环:由CTCF蛋白介导,形成绝缘边界。
- 转录工厂环:多个基因汇聚的转录活跃中心。
6. A/B区室分析
在更大尺度(数Mb)上,染色质分为A区室(活性,基因丰富,常染色质)和B区室(非活性,基因贫乏,异染色质)。区室通过主成分分析(PCA)或自相关分析识别。
6.1 计算方法
- PCA:对归一化接触矩阵计算特征向量,第一个特征向量(E1)的正负对应A/B区室。
- 自相关矩阵:计算每个bin与所有其他bin的接触模式,聚类确定区室。
6.2 工具
- HiCExplorer的
hicPCA命令。 - Juicer的
juicer tools eigenvector。 - cooltools的
expected_cis和saddle。
6.3 生物学意义
- A区室:开放染色质、高表达、H3K4me3/H3K27ac富集。
- B区室:封闭染色质、低表达、H3K27me3/H3K9me3富集。
- 区室变化与细胞分化、疾病状态相关。
7. 多组学整合分析
7.1 Hi-C与ChIP-seq/ATAC-seq整合
- TAD边界与CTCF、SMC复合体:验证边界形成机制。
- 环与增强子-启动子关联:将Hi-C环与ChIP-seq信号结合,预测靶基因。
7.2 Hi-C与RNA-seq整合
- TAD与基因共表达:同一TAD内基因往往共表达。
- 环与表达水平:形成环的增强子-启动子对与高表达相关。
7.3 Hi-C与表观组整合
- 区室与组蛋白修饰:A区室富集激活标记,B区室富集抑制标记。
- TAD边界与DNA甲基化:边界处甲基化水平较低。
7.4 可视化工具
- Juicebox:交互式Hi-C数据浏览器,支持叠加其他轨道。
- HiGlass:Web-based Hi-C和基因组数据可视化平台。
- WashU Epigenome Browser:支持Hi-C和多种表观数据。
8. 案例分析:三维基因组在疾病研究中的应用
8.1 癌症中TAD边界破坏
研究显示,某些癌症中TAD边界处发生DNA甲基化或CTCF结合缺失,导致相邻TAD融合,引发原癌基因异常激活。例如,在胶质瘤中,TAD边界破坏导致PDGFRA基因与其远距离增强子形成异常环,促进癌基因过表达。
8.2 发育过程中的染色质重组
使用Hi-C追踪胚胎干细胞分化过程中区室和TAD的动态变化,发现发育关键基因的启动子在分化过程中从B区室转移到A区室,伴随表达激活。
8.3 GWAS变异的功能注释
将GWAS风险变异映射到Hi-C环的锚点区域,发现许多非编码变异位于增强子-启动子环内,影响远端基因表达。例如,2型糖尿病相关变异位于TCF7L2基因的增强子环中。
9. 挑战与未来趋势
9.1 当前挑战
- 分辨率与通量的矛盾:高分辨率需要极深的测序,成本高。
- 细胞异质性:bulk Hi-C反映群体平均,掩盖细胞间差异。
- 数据分析复杂性:Hi-C数据量大,分析流程长,对计算资源要求高。
- 算法标准化不足:不同工具结果差异大,缺乏统一评估基准。
9.2 未来趋势
- 单细胞Hi-C(scHi-C):解析细胞间三维基因组异质性,揭示动态变化。
- Micro-C:使用微球菌核酸酶替代限制性内切酶,提高分辨率至核小体水平。
- 长读长Hi-C:PacBio/ONT测序直接解析复杂区域环和结构变异。
- 空间Hi-C(spatial Hi-C):结合显微成像,将三维基因组信息映射回组织原位。
- 深度学习整合:使用图神经网络预测环、TAD边界和功能后果。
10. 结语
Hi-C技术揭示了染色质三维空间组织的基本规律,从A/B区室、TAD到点状环,每一层级都对基因表达调控至关重要。通过系统性的数据分析和多组学整合,我们能够将基因组序列、表观修饰和三维构象联系起来,理解正常发育和疾病中基因调控的空间密码。随着单细胞和空间技术的发展,三维基因组学将进入更高分辨率和更动态的新时代,为精准医学提供全新视角。
参考文献:
- Lieberman-Aiden, E., et al. (2009). Comprehensive mapping of long-range interactions reveals folding principles of the human genome.Science, 326(5950), 289-293.
- Dixon, J. R., et al. (2012). Topological domains in mammalian genomes identified by analysis of chromatin interactions.Nature, 485(7398), 376-380.
- Rao, S. S., et al. (2014). A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping.Cell, 159(7), 1665-1680.
- Durand, N. C., et al. (2016). Juicer provides a one-click system for analyzing loop-resolution Hi-C experiments.Cell Systems, 3(1), 95-98.
- Abdennur, N., & Mirny, L. A. (2020). Cooler: scalable storage for Hi-C data and other genomically labeled arrays.Bioinformatics, 36(1), 311-316.
- Ramírez, F., et al. (2018). High-resolution TADs reveal DNA sequences underlying genome organization in flies.Nature Communications, 9(1), 189.
