当前位置：首页 > news >正文

蛋白质设计新范式：QUBO建模与迭代学习框架解析

news 2026/7/15 13:49:52

1. 项目概述与核心思路

在生物信息学和计算生物学领域，蛋白质设计一直是一个“圣杯”级别的挑战。简单来说，它要回答一个逆向问题：给定一个我们想要的蛋白质三维结构，如何从头设计出能折叠成这个结构的氨基酸序列？传统方法要么依赖经验性的能量函数，要么计算成本高到令人望而却步。最近，我们团队尝试将这个问题“翻译”成计算机和量子计算更擅长的语言——组合优化问题，特别是二次无约束二进制优化模型，并取得了意想不到的进展。这不仅仅是把问题丢给更强大的算力，关键在于这种“翻译”过程本身，就带来了一种全新的、更高效的求解视角。

我们的核心思路可以拆解为两步。第一步是“学习打分”，我们不再预设一个固定的、可能不准确的物理能量模型来评价序列与结构的匹配度。相反，我们利用现有的、已经非常可靠的蛋白质结构预测工具（比如AlphaFold2），让它们在一批序列上“跑分”，从而反向学习出一个针对我们特定设计目标的、最优的“打分函数”。第二步是“序列寻优”，我们将序列选择这个组合爆炸问题，巧妙地映射成一个QUBO问题。这样一来，我们就可以调用一系列强大的优化“引擎”来搜索最优解，无论是经典的模拟退火、商业求解器GUROBI，还是新兴的D-Wave量子退火机。令人惊讶的是，我们发现，仅仅是将问题转化为QUBO形式这一步，就带来了显著的性能提升，其效果甚至超过了传统优化方法在同等计算资源下的表现。

2. 从蛋白质设计到QUBO：问题建模详解

2.1 蛋白质设计的数学本质

要理解为什么QUBO模型适用，我们得先看看蛋白质设计问题的数学内核。假设我们有一个目标蛋白质结构，它由N个氨基酸位置（或抽象为“珠子”）构成。我们有一个包含D种氨基酸类型的“字母表”。设计任务就是：为这N个位置，从字母表中挑选氨基酸并排列，使得最终序列折叠后的结构与目标结构最匹配，同时还要满足一些全局约束，比如序列中每种氨基酸的数量是预先指定的。

这本质上是一个典型的组合优化问题：搜索空间是D^N，随着N和D增大，这个空间会爆炸式增长，穷举搜索完全不现实。传统方法会定义一个能量函数E(S, Γ)，用来计算序列S在构象Γ下的“能量”。设计目标就是找到序列S，使得它在目标构象Γ_target下的能量最低，并且远低于在其他任何非目标构象下的能量，从而保证折叠的唯一性和稳定性。

2.2 QUBO模型的核心：二进制变量与约束嵌入

QUBO模型的美在于其形式的简洁和通用性。它的标准形式是寻找二进制向量x（每个元素为0或1），以最小化目标函数：H = x^T Q x，其中Q是一个实对称矩阵。我们的任务就是把复杂的蛋白质序列设计问题，塞进这个框架里。

关键的一步是定义二进制变量。我们为蛋白质链上的每个位置i和字母表中的每种氨基酸类型m，引入一个二进制变量q_{i, m}。如果位置i上是氨基酸类型m，则q_{i, m} = 1，否则为0。这样，一个序列就由N×D个二进制变量来表征。

接下来是嵌入约束。我们的问题有两个硬约束：

排他性约束：每个位置i上必须且只能有一种氨基酸。数学表达为：对任意位置i，∑_{m=1}^{D} q_{i, m} = 1。
组成约束：序列中每种氨基酸m的总数必须等于预设值N_m。即：对任意氨基酸类型m，∑_{i=1}^{N} q_{i, m} = N_m。

在QUBO框架中，硬约束通常通过添加惩罚项到目标函数中来软性实现。我们将约束转化为二次惩罚项：

对于排他性约束，我们惩罚同一位置上有多个氨基酸的情况：A1 * ∑_i ∑_{m≠n} q_{i,m} q_{i,n}。当且仅当每个位置最多只有一个q为1时，此项为0。
对于组成约束，我们惩罚实际数量与目标数量的偏差：A2 * ∑_m (∑_i q_{i,m} - N_m)^2。当组成完全符合时，此项为0。

这里的A1和A2是很大的正数（惩罚权重），确保在最优解中，违反约束的代价极高，从而迫使解满足约束。

2.3 设计打分函数的QUBO转化

我们的设计打分函数G(S)基于接触图。假设我们通过机器学习方法，学到了一个针对目标结构的、最优的残基-残基相互作用矩阵ε。对于目标结构，我们计算其接触图C_ij（如果位置i和j在空间上接触，则C_ij=1，否则为0），并减去所有可能构象的平均接触图〈C〉，得到偏差接触图C̃ = C - 〈C〉。

那么，序列S在目标结构下的打分（我们希望最小化它）可以写为：G(S) = ∑_{i<j} C̃_ij * ε_{s_i, s_j}，其中s_i是序列S在第i位的氨基酸类型。

利用我们定义的二进制变量q_{i,m}，我们可以将ε_{s_i, s_j}重写为∑_{m,n} q_{i,m} q_{j,n} ε_{m,n}。代入G(S)，我们就得到了一个关于二进制变量q的二次型。经过一系列代数变换（具体推导涉及将其中一种氨基酸类型选为参考，以消除线性依赖，减少变量数），最终G(S)可以精确地表达为一个标准的QUBO形式：H = ∑_{i,j} ∑_{m,n} J_{ij}^{mn} q_{i,m} q_{j,n} + ∑_{i,m} h_i^m q_{i,m} + 常数。

注意：这里的推导细节是确保问题正确映射的关键。系数J和h由偏差接触图C̃和相互作用矩阵ε共同决定。通过这种映射，最小化设计打分函数G(S)的问题，就等价于求解这个特定的QUBO模型的最小值问题。

3. 优化引擎对比：经典、量子与混合策略

将问题转化为QUBO形式后，我们就可以请出各路“优化引擎”来求解了。我们在不同规模的问题上（如9x9和13x13的晶格模型）系统对比了三种代表性方法，结果颇具启发性。

3.1 经典优化器：模拟退火与GUROBI

模拟退火是一种受物理过程启发的经典启发式算法。它从一个随机解开始，通过允许偶尔接受“更差”的解来跳出局部最优，并随着“温度”参数的降低，逐渐稳定到全局最优解附近。在我们的实现中，我们采用了改进的模拟退火方案：提议新解时，不是随机改变单个位置的氨基酸，而是随机交换序列中两个位置的氨基酸。这种方法天然保持了氨基酸组成不变，大大提高了搜索效率。我们使用的参数是：初始温度T_max=100，最终温度T_min=10^{-4}，退火步数N_steps=10^4。

GUROBI是一个强大的商业数学优化求解器，专门求解混合整数规划等问题。它内部集成了割平面法、分支定界、启发式算法等一系列高级算法。当我们将QUBO问题提交给GUROBI时，它能够利用其成熟的算法库，高效地寻找全局最优解或高质量的近似解。

3.2 量子启发与量子退火：D-Wave混合求解器

量子退火是一种利用量子力学特性（如量子隧穿）来寻找组合优化问题基态（对应最优解）的技术。D-Wave公司的量子退火机将QUBO问题映射到其物理量子比特的连接网络上，通过缓慢调节量子系统的哈密顿量，使其自然演化到低能态。

然而，当前量子硬件的规模（量子比特数）和连通性有限，无法直接处理大规模问题。因此，D-Wave提供了混合求解器。它将原问题分解，一部分子问题由量子退火机处理，另一部分由经典计算机处理，两者迭代协作。这个过程对用户而言像一个黑箱，其内部如何分配经典与量子计算的比例、如何进行分解等策略并不完全由用户控制。

3.3 性能对比与深度分析

我们对三种方法进行了大量采样统计。一个关键发现是：将问题编码为QUBO形式本身，就带来了巨大的性能提升。即使是在经典计算机上使用模拟退火来求解这个QUBO模型，其效果也远超传统上不经过QUBO编码、直接操作序列的优化方法。

在具体的求解器对比中，GUROBI表现最佳，找到了质量最高的解。这并不意外，它代表了经典优化算法数十年发展的结晶，在软件和算法层面极度优化。

而D-Wave混合求解器的表现，可以看作是当前“量子+经典”混合计算能力的一个下限基准。它的结果虽然可能不如成熟的GUROBI，但为我们展示了量子计算在解决此类问题上的可行性和独特潜力。需要明确的是，混合求解器的性能受到其内部（可能非最优的）问题分解策略的限制，并不代表量子退火理论上的最优能力。

实操心得：对于实际应用者而言，这个对比给出了清晰的路径：1)首要步骤是将问题转化为QUBO，这一步的收益可能比选择什么求解器更大。2) 在当前阶段，成熟的经典求解器（如GUROBI）仍是解决中小规模实际问题最可靠、高效的工具。3)量子混合求解器值得关注和测试，尤其对于特定类型或规模的问题，它可能展现出优势，但应将其结果视为一个有益的参考，而非绝对的最优。

4. 迭代学习框架：让打分函数自我进化

一个核心的创新点在于，我们并没有使用一个固定的、通用的相互作用矩阵ε。相反，我们设计了一个迭代学习框架，让打分函数G(S)中的ε矩阵在设计中自我进化、不断优化。

4.1 学习循环：预测、对比、更新

这个过程形成一个闭环：

初始化：从一个随机的或基于知识的初始相互作用矩阵ε^(0)开始。
序列优化：使用当前的ε^(k)构建QUBO问题，并用优化器（如模拟退火）生成一批候选序列S^(k)。
结构验证：对于每个候选序列，使用一个快速、可靠的蛋白质结构预测工具（例如基于机器学习的预测器）来预测其最可能折叠成的结构。这一步是关键，它用“物理现实”来检验我们的设计。
约束生成与参数更新：
- 对于成功折叠到目标结构的序列，我们要求其打分G(S)（基于当前ε^(k)）在目标构象上最低，并且与其他构象的能量差足够大（大于一个基于折叠概率pfold和温度β计算出的阈值Δ）。这保证了序列的折叠特异性和稳定性。
- 对于未能折叠到目标结构的序列，我们要求其打分G(S)在预测出的非目标构象上低于在目标构象上。这惩罚了错误的设计。
- 这些要求被形式化为一系列关于ε的线性不等式约束。
求解约束：我们使用感知机算法的一种变体来寻找一个新的相互作用矩阵ε^(k+1)，使其尽可能满足当前积累的所有约束。感知机算法会迭代地调整ε，每次选择被违反最严重的约束，并沿特定方向更新ε以减轻违反程度。学习率η会随着迭代衰减，以实现精细调整。
迭代：用更新后的ε^(k+1)回到第2步，重复这个过程。

4.2 技术细节：感知机算法与约束处理

感知机算法在这里的作用是找到一个能“分开”两类的超平面。在我们的语境中，这个“超平面”就是相互作用矩阵ε，而“两类”分别是“好序列应满足的条件”和“坏序列应满足的条件”。

算法流程如下：

输入：当前能量矩阵ε^(k)，以及从所有历史迭代中积累的序列集合S_cum^(k)及其对应的结构预测结果。
将步骤4中生成的所有不等式约束，整理成标准形式：ε · x_i + c_i ≥ 0，其中x_i是由接触图等计算的向量，c_i是常数项。
初始化临时矩阵ε* = ε^(k)。
循环迭代：计算所有约束的违反程度v_i = ε* · x_i + c_i。找到违反最严重的约束i*（即v_i最小的那个）。更新临时矩阵：ε* ← ε* + η * x_i*。这里η是动态衰减的学习率，例如设为η0 / (1+3k)，k是迭代次数。
终止条件：当所有约束都被满足（v_i ≥ 0），或达到最大迭代次数时停止。
输出：更新后的能量矩阵ε^(k+1) = ε*。

这个框架的强大之处在于，它将蛋白质结构预测的前沿成果（如AlphaFold2）直接作为“教师信号”，来指导设计打分函数的学习。它不依赖于任何预设的物理力场参数，而是从数据中直接学习出针对当前设计任务的最优评价标准。

5. 在晶格模型上的概念验证

为了在可控的环境中验证我们方法的有效性，我们首先在简化的二维晶格模型上进行了测试。虽然模型简化，但它保留了蛋白质折叠和设计的核心组合优化特征，且能进行穷举枚举以获取绝对真实结果，这对于评估算法性能至关重要。

5.1 实验设置

我们设计了不同大小的晶格（如4x4, 9x9, 13x13）和不同大小的氨基酸字母表（D=3, 4, 5）。我们预设了一个“真实”的相互作用能量矩阵ε_truth（这是一个已知的、用于生成测试数据的矩阵）。目标是在不知道ε_truth的情况下，通过我们的迭代算法，设计出能折叠到特定目标晶格结构的序列。

评估指标：我们主要关注“折叠成功率”，即算法设计出的序列中，有多少比例能够真正折叠到我们预设的目标结构（根据ε_truth计算）。

5.2 实验结果与洞察

QUBO编码的有效性：如图5所示，无论是对于9x9还是更大的13x13晶格，采用QUBO编码后再进行优化（红/蓝/绿色条），其得到的序列打分G(S)的分布，显著优于传统的序列重排+模拟退火方法（红色）。这直观证明了QUBO重构带来的“红利”。
字母表大小与链长的影响：
- 字母表越大，成功率越高（图8a,b）。这是因为更大的氨基酸多样性提供了更丰富的化学空间，更容易找到满足特定结构要求的序列。
- 蛋白质链长（晶格大小）增加，成功率下降（图8c,d）。这符合直觉，因为搜索空间随N指数增长，问题难度急剧增加。这也指明了未来算法需要攻克的方向——如何扩展到真实蛋白质的长度（数百个残基）。
迭代学习的效果：通过接收者操作特征曲线分析（图3, 图7），我们发现，随着迭代轮次k增加，基于学习到的打分函数G(S)对序列是否“可折叠”的二分类能力（AUC值）稳步提升。这意味着我们的ε矩阵确实在变得越来越擅长区分好序列和坏序列。

注意事项：晶格模型是理想的试验场，但到真实蛋白质设计还有巨大鸿沟。真实蛋白质是三维的、拥有20种标准氨基酸、侧链构象复杂。然而，我们方法的核心——基于接触图的打分函数和学习框架——并不依赖于晶格假设。理论上，只要我们能获得可靠的蛋白质三维结构接触图预测（现代AI工具如AlphaFold2已能高效做到），并定义好氨基酸类型的相互作用，整个流程可以直接迁移。

6. 迈向现实：方法扩展与挑战

6.1 从晶格到真实三维结构

我们的方法通向实际应用的关键在于其通用性。评分函数G(S)完全由接触图定义，与蛋白质构象的具体表示方式（晶格或连续空间）无关。因此，我们可以直接转向更真实的非晶格模型。

操作路径：

替换构象采样器：将穷举枚举晶格构象，替换为基于真实蛋白质骨架的构象采样方法（如分子动力学模拟、Rosetta的片段组装等），或直接利用AlphaFold2等工具对给定序列进行结构预测。
定义接触：在真实三维结构中，定义原子间或残基间的接触标准（如Cβ原子距离小于一定阈值）。
计算接触图：对每个候选构象计算其接触矩阵C(Γ)。
嵌入更大的字母表：将字母表从3-5种扩展到20种标准氨基酸。这会使QUBO问题的变量数增加，但对模型框架没有本质影响。

6.2 与前沿AI蛋白质设计工具的协同

近年来，基于深度学习的蛋白质设计工具（如RFdiffusion、ProteinMPNN）取得了革命性进展。我们的方法并非要取代它们，而是可能形成互补：

作为生成器的优化器：AI模型可以快速生成大量可能折叠到目标结构的候选序列。我们的QUBO优化框架可以作为下游的“精炼器”，对这些候选序列进行进一步的优化，确保其在满足特定全局约束（如精确的氨基酸组成、避免某些氨基酸组合）的同时，折叠特异性最优。
提供可解释的物理洞察：AI模型通常是黑箱。而我们方法学习到的相互作用矩阵ε，可以作为一种可解释的、基于物理的评分模型，帮助我们理解为什么某些序列能成功折叠。这个ε矩阵可以看作是针对当前设计目标，从数据中学习到的“有效残基-残基相互作用势”。
处理复杂约束：我们的QUBO框架天然擅长处理复杂的组合约束。例如，在设计蛋白质-蛋白质界面时，可以同时优化结合亲和力与特异性，将多目标问题整合进一个QUBO模型中。

6.3 当前量子硬件的角色与展望

我们的实验表明，目前完全经典的优化器在解决此类问题上仍具优势。那么，量子计算的价值何在？

解决不同问题类型：当前的量子退火机可能更擅长解决某些特定类型的QUBO问题（如具有特定连接拓扑的问题）。随着蛋白质设计问题规模扩大、约束变复杂，其问题结构可能更契合量子退火的优势。
启发新的经典算法：量子退火背后的原理（如量子隧穿、量子涨落）启发了许多新的经典优化算法（如模拟量子退火）。对QUBO形式的研究本身，就推动了优化理论的发展。
未来硬件潜力：量子计算硬件正以前所未有的速度发展。随着量子比特数量、质量（相干时间、保真度）和连通性的提升，能够直接处理的QUBO问题规模将越来越大。我们的工作提前建立了一套将生物学问题“翻译”成量子计算可解形式的流程，为未来量子算力爆发做好了算法准备。

7. 实操指南、常见问题与避坑技巧

如果你也想在自己的研究或项目中尝试这套方法，以下是一些具体的操作建议和可能遇到的坑。

7.1 实施步骤概览

问题定义：明确你的目标蛋白结构（PDB文件或模型），确定设计区域（全长或局部），设定氨基酸组成约束或其他序列约束。
构建接触图：从目标结构计算残基间接触图C_target。计算或估计一个参考态的平均接触图〈C〉，得到偏差接触图C̃。对于平均接触图，可以使用已知结构的数据库进行统计，或对构象空间进行采样计算。
初始化能量矩阵ε：可以从统计势（如Miyazawa-Jernigan势）或机器学习预测的势开始，也可以从一个随机矩阵开始。迭代学习框架对初始值有一定鲁棒性。
构建QUBO问题：
- 根据序列长度N和字母表大小D，定义二进制变量。
- 将设计打分函数G(S) =∑_{i<j} C̃_ij * ε_{s_i, s_j}用二进制变量展开，转化为x^T Q x形式。
- 将排他性约束和组成约束以惩罚项A1*(惩罚项1) + A2*(惩罚项2)的形式加入目标函数。关键点：惩罚权重A1和A2需要足够大以确保约束被满足，但也不能过大导致数值问题。通常可以从1e3到1e5开始尝试，根据求解器反馈调整。
选择求解器并求解：
- 快速原型/小问题：使用模拟退火（如Python的simanneal库）。调整退火计划（温度范围、步数）以获得良好结果。
- 追求最优解/中等问题：使用GUROBI、CPLEX等商业求解器，或开源的OR-Tools、SCIP。它们能提供最优性证明或高质量可行解。
- 探索量子计算：将QUBO矩阵提交给D-Wave Leap云服务，使用其混合求解器。注意其问题规模限制和格式要求。
结构验证与迭代学习：
- 用快速折叠预测工具（如本地化运行的AlphaFold2、ESMFold或Rosetta FastRelax）评估设计出的序列。
- 根据预测结果（是否折叠到目标）生成感知机算法的约束。
- 运行感知机算法更新ε矩阵。
- 重复步骤4-6，直到设计出的序列折叠成功率收敛，或达到预设迭代次数。

7.2 常见问题与解决方案

问题	可能原因	解决方案与排查技巧
求解器找不到可行解	惩罚权重A1/A2太小，约束未被满足；或问题本身无解（约束矛盾）。	1. 逐步增大A1, A2，观察约束违反程度是否减小。 2. 检查组成约束N_m之和是否等于序列长度N。 3. 暂时移除一个约束，看是否能得到解，以定位矛盾约束。
解的质量很差（G(S)值高）	求解器陷入局部最优；退火计划不佳；或能量矩阵ε初始化太差。	1. 对经典求解器，尝试多次随机初始化的运行，取最佳结果。 2. 调整模拟退火的`Tmax`,`Tmin`,`steps`。尝试更慢的退火。 3. 在迭代学习中，早期允许感知机算法有更大的学习率（η0），以便快速调整方向。
迭代学习不收敛	约束集可能线性不可分；学习率η设置不当。	1. 检查约束是否自相矛盾。例如，同一个序列是否既被要求是“好”的又被要求是“坏”的？确保结构预测步骤可靠。 2. 引入“松弛变量”或使用软间隔感知机，允许少量约束被违反。 3. 采用动态衰减的学习率，如`η = η0 / (1 + decay_rate * k)`。
QUBO问题规模太大	序列长(N)或字母表大(D)导致变量数N×D爆炸。	1.减少变量：采用对数编码（见补充材料S2），但需注意这会引入辅助变量，不一定节省总变量数。更实际的是利用对称性或先验知识减少搜索空间。 2.问题分解：使用D-Wave混合求解器，它自动处理分解。对于经典求解器，可尝试将长序列分成重叠的片段分别优化，再拼接。 3.使用启发式而非精确求解：对于大规模问题，接受近似最优解。专注于改进迭代学习框架，让ε矩阵足够好，使得即使近似求解也能得到好序列。
结构预测耗时过长	使用全尺寸AlphaFold2等工具预测每个序列速度慢。	1.使用更快的预测器：如ESMFold，它在保持不错准确度的同时速度更快。 2.预筛选：在进入昂贵的结构预测前，先用简单的、基于ε矩阵的打分进行初筛，只对高分候选进行全结构预测。 3.批量处理：并行化结构预测任务。

7.3 性能调优与高级技巧

ε矩阵的初始化艺术：不要从全零或完全随机的矩阵开始。使用从已知蛋白质结构中统计得到的共进化势或知识势作为起点，可以极大加速学习过程，提高初始序列的质量。
接触图C̃的平滑处理：直接使用二值接触图（0或1）可能过于尖锐。可以考虑使用距离相关的连续函数（如1/(1+(d/d0)^6)）来生成“软”接触图，使能量景观更平滑，利于优化。
集成多个预测器：结构预测存在不确定性。可以集成AlphaFold2、Rosetta、ESMFold等多个工具的预测结果，只有当多数工具预测为目标结构时，才认为序列是“成功”的，以此生成更稳健的约束。
处理连续构象空间：在真实蛋白质设计中，构象空间是连续的。我们的方法需要计算平均接触图〈C〉。这可以通过对目标蛋白结构的微小扰动（分子动力学模拟短轨迹）或同源蛋白结构进行采样来近似估计。

最后想分享的一点体会是，这套方法最吸引人的地方在于其框架的通用性和模块化。你可以把“蛋白质结构预测器”模块替换成任何你信任的工具，把“QUBO求解器”模块替换成当下最快、最强的优化引擎（无论是经典的还是量子的）。整个流程就像一个乐高组合，核心思想是将复杂的生物物理问题，通过机器学习与组合优化这座桥梁，转化为可计算、可优化的形式。虽然目前量子硬件在实用性能上尚未超越经典顶级优化器，但这条技术路径为我们打开了一扇门，让我们能够以统一的语言来处理从序列到功能的复杂生物设计问题，并为未来更强大的计算范式做好了准备。

查看全文

http://www.jsqmd.com/news/880247/