Proteina-Complexa:NVIDIA 如何把蛋白 Binder 设计推进到全原子生成时代?
蛋白质设计正在从一个“预测问题”,变成一个“生成问题”。
过去,我们最关心的问题是:给定一条蛋白序列,它会折叠成什么结构?
这是 AlphaFold2、AlphaFold3 等结构预测模型推动的时代。它们让我们第一次可以大规模、较可靠地看到蛋白质的三维结构。
但今天,问题已经变了。
研究者开始问另一个更主动的问题:如果我有一个疾病相关靶点,能不能直接设计一个全新的蛋白,让它结合这个靶点?
再进一步,如果这个靶点不是蛋白,而是小分子、糖类、核酸,甚至一个特定的催化位点,模型能不能也生成一个新的蛋白分子来识别它、包裹它、调控它?
这就是 de novo protein binder design,也就是从头蛋白结合体设计的核心目标。
在这个方向上,NVIDIA 提出的Proteina-Complexa值得认真讨论。
它和前面几年常见的蛋白设计工具有明显不同。RFdiffusion 更偏向生成蛋白骨架;BindCraft 更像一个自动化 binder 设计 pipeline;Protein Hunter 更强调利用结构预测模型的结构幻觉能力。而 Proteina-Complexa 更像是把问题向前推进了一步:它试图直接生成蛋白复合物中的 binder 序列、骨架、侧链和全原子结构。
换句话说,它不只是问“这个蛋白长什么样”,也不只是问“这个 binder 能不能贴到靶点上”。
它试图回答的是:
为了结合这个目标,我应该生成一个怎样的新蛋白?
这背后代表的不只是一个模型更新,而是蛋白质设计范式的变化。
一、为什么 protein binder 设计如此重要?
所谓 protein binder,可以简单理解为:能够特异性结合某个目标分子的蛋白。
如果目标蛋白是一把锁,binder 就是一把为它定制的钥匙。只不过这把钥匙不是金属做的,而是由氨基酸组成的三维分子机器。
在生命科学和药物研发中,binder 的用途非常广。
它可以结合细胞表面受体,阻断异常信号;可以结合病毒蛋白,阻止病毒进入细胞;可以结合毒素蛋白,降低毒性;可以结合酶或核酸酶,调节其活性;可以作为诊断探针,识别疾病标志物;也可以作为递送模块,把药物、病毒载体或其他治疗分子带到特定细胞。
抗体就是最成功的一类 binder。
但是,抗体并不是唯一答案。小型蛋白 binder、mini-binder、纳米抗体、环肽、支架蛋白、酶样蛋白等,都可能成为新的治疗或工具分子。
传统 binder 发现主要依赖实验筛选,例如动物免疫、噬菌体展示、酵母展示、核糖体展示、定向进化等。这些方法很强大,也支撑了很多药物发现。但它们有几个问题。
第一,周期较长。
从文库构建、筛选、富集、测序、表达、验证到优化,往往需要多轮实验。
第二,成本较高。
如果靶点难表达、难纯化,或者构象不稳定,筛选会更加困难。
第三,对结合位点控制有限。
实验筛选可以找到 binder,但它不一定结合我们真正想要的功能表位。
第四,对难成药靶点不够友好。
很多蛋白-蛋白相互作用界面浅而平,传统小分子难以作用,而实验筛选也未必能高效得到理想 binder。
因此,计算蛋白设计的目标逐渐清晰起来:
不是从海量实验文库里碰运气,而是从靶点结构出发,直接设计候选 binder。
这也是 Proteina-Complexa 所处的技术背景。
二、从 Rosetta 到 Proteina-Complexa:蛋白设计路线正在变化
要理解 Proteina-Complexa,需要先看蛋白设计的发展脉络。
早期蛋白设计主要依赖 Rosetta 这类物理建模工具。它们通过能量函数、采样算法、侧链打包和构象优化来设计蛋白结构。这个时代的核心思想是:用物理规则尽可能描述蛋白质稳定性和相互作用。
后来,AlphaFold2 让结构预测发生巨大变化。模型可以根据序列预测蛋白三维结构,让研究者获得大量结构信息。再后来,AlphaFold3、Boltz、Chai 等模型进一步扩展到蛋白、核酸、小分子等多分子复合物预测。
但是,结构预测仍然主要回答“给定这些分子,它们可能怎么结合”。
接着,RFdiffusion 代表了蛋白骨架生成时代。它可以从噪声中生成蛋白骨架,也可以用于 binder backbone design、motif scaffolding 等任务。典型流程通常是:先生成 backbone,再用 ProteinMPNN 设计序列,再用 AlphaFold 验证结构。
BindCraft 则代表了另一条路线。它更像自动化 binder 设计工作流,利用 AlphaFold2 Multimer 的反向传播能力进行 binder hallucination,再结合 ProteinMPNN 和 PyRosetta 完成序列重设计和物理筛选。
Protein Hunter 又提供了一个新思路:利用 AF3-style 结构预测模型,在 all-X 或 mixed-X sequence 条件下产生结构幻觉,再通过迭代重设计和重预测获得候选。
这些方法都在回答一个共同问题:如何让结构预测模型不只是评价结构,而是参与设计结构?
Proteina-Complexa 则试图进一步统一这些路线。
它的野心不是只生成骨架,也不是只搭建一个模块化 pipeline,而是直接建立一个面向蛋白复合物的生成模型,使其能够在靶点条件下联合生成 binder 的序列、主链、侧链和全原子结构。
这意味着 protein binder 设计正在从:
骨架生成 → 序列设计 → 结构预测 → 物理筛选
逐渐走向:
序列、骨架、侧链和界面共同生成。
这就是所谓“全原子生成时代”的含义。
三、Proteina-Complexa 是什么?
Proteina-Complexa 是 NVIDIA 提出的一个面向蛋白复合物设计的生成式模型框架。
它主要用于 de novo protein binder design,也就是从头设计能够结合目标分子的蛋白 binder。它可以面向蛋白靶标设计 binder,也可以扩展到小分子靶标、motif scaffolding 和 enzyme design 等任务。
它的几个关键词非常重要:
第一,它是生成式模型,不是单纯预测模型。
AlphaFold3 这类模型主要回答“这些分子可能如何形成结构”。Proteina-Complexa 更进一步,试图回答“为了结合目标,我应该生成一个怎样的新蛋白”。
第二,它是 protein complex design 模型,不只是单体蛋白生成模型。
单体蛋白生成只需要考虑一个蛋白自身能否稳定折叠;binder 设计还要考虑 binder 与 target 之间的界面、几何互补、电荷互补和相互作用模式。
第三,它强调 full-atomistic generation,也就是全原子生成。
传统很多流程先生成主链骨架,然后再补序列和侧链。Proteina-Complexa 试图联合考虑主链、侧链、序列和界面,而不是把这些步骤完全拆开。
第四,它使用 flow matching 生成框架。
这是一类生成建模方法,可以理解为学习一条从随机噪声走向真实分子结构的连续变换路径。
第五,它引入 test-time compute,也就是推理时优化。
模型不是一次采样后就结束,而是在生成过程中通过搜索、奖励函数和优化策略,让候选在推理阶段进一步变好。
用一个类比来说:
传统模块化流程像是先画房子外形,再找材料,再请工程师验收。
Proteina-Complexa 更像是在设计阶段同时考虑房屋外形、材料属性、内部结构和与周围建筑的连接方式。
这并不意味着它已经解决了所有问题。
但它确实把 protein binder 设计从“模块拼接流程”推进到了“一体化生成框架”。
四、核心技术一:Flow Matching,让生成过程成为一条连续路径
很多人熟悉扩散模型,是从图像生成开始的。
扩散模型的基本思想可以类比为:先把真实图像逐渐加噪,变成随机噪声;模型再学习如何从噪声一步步去噪,恢复出合理图像。
蛋白结构生成也可以借鉴类似思路。因为蛋白三维结构本质上也是一个高维对象:每个残基、每个原子都有空间坐标,序列和结构之间还有复杂耦合关系。
Proteina-Complexa 使用的是 flow matching 思路。
如果不用数学公式解释,可以把 flow matching 理解为:模型学习一条从随机状态通向真实蛋白复合物分布的连续路径。
这个路径不是简单地“随机猜一个结构”,而是在训练过程中学习真实蛋白复合物应该如何从噪声逐渐生成出来。
为什么这对 binder 设计重要?
因为 binder 设计不是只生成一个稳定蛋白。它还必须在目标靶点附近形成合理界面。
这就像不是随便造一把钥匙,而是要根据锁孔形状、表面凹凸、电荷分布和相互作用需求来造钥匙。
Flow matching 提供了一种生成框架,使模型可以在靶点条件下逐步生成候选 binder,同时保留生成多样性和可优化空间。
这也是 Proteina-Complexa 与 RFdiffusion 的相似之处和不同之处。
相似之处在于,它们都属于生成式蛋白设计范畴,都试图从随机初始状态生成蛋白结构。
不同之处在于,RFdiffusion 更强调蛋白骨架生成,而 Proteina-Complexa 更强调全原子复合物生成,以及序列、主链、侧链和界面的联合建模。
这就是它的技术野心所在。
五、核心技术二:部分潜变量表示,把复杂的全原子问题变得可建模
直接生成全原子蛋白结构非常困难。
原因很简单:蛋白质不是一串等长零件。
不同氨基酸的侧链长度不同,原子数量不同,化学性质不同。甘氨酸几乎没有侧链,色氨酸有庞大的芳香环,赖氨酸带正电,谷氨酸带负电,半胱氨酸还可能形成二硫键。
如果模型直接在所有原子坐标和离散氨基酸类型上建模,复杂度会非常高。
Proteina-Complexa 采用了一种叫partially latent representation的思路,可以翻译为“部分潜变量表示”。
它的大致思想是:
蛋白主链的 Cα 坐标在三维空间中显式建模,而侧链构象、非 Cα 原子和氨基酸序列信息被压缩到连续潜变量空间。
这里的 Cα,可以理解为每个氨基酸残基主链上的一个关键锚点。很多蛋白结构建模都会把 Cα 看成描述主链整体形态的重要骨架点。
为什么要这样做?
因为主链几何决定了蛋白整体折叠形态,而侧链和序列决定了局部化学环境、稳定性和界面相互作用。完全忽略侧链不行,因为 binder 设计高度依赖界面化学;但直接显式生成所有侧链原子又太复杂。
于是,部分潜变量表示提供了一个折中方案。
它保留主链的显式几何,同时把更复杂、更离散、更难处理的序列和侧链细节编码进连续潜变量中。之后,autoencoder 可以把全原子结构编码到这个表示空间,也可以从这个表示空间解码回完整的全原子结构。
这使得模型能够在统一空间里同时学习序列、结构和原子细节。
这点非常重要。
传统方法常常把 backbone generation、sequence design、side-chain packing 拆成几个步骤。每一步都可能引入误差:骨架生成时没有充分考虑序列,序列设计时没有充分考虑侧链化学,结构预测时又可能发现前面设计并不自洽。
Proteina-Complexa 的目标则是让这些信息在同一个生成过程中彼此耦合。
换句话说,它不是先造一个空壳,再往里面填材料,而是在生成时就考虑这个结构应该由什么材料组成。
六、核心技术三:Target Conditioning,根据靶点生成 binder
Protein binder 设计与普通蛋白生成最大的区别在于:它不是在空气中生成一个稳定蛋白,而是要围绕一个目标靶点生成一个能结合的蛋白。
这就需要 target conditioning,也就是靶点条件生成。
Proteina-Complexa 的输入可以包括靶蛋白结构、靶标氨基酸信息、目标结合区域、hotspot tokens、小分子靶标、motif 或 active site 约束等。
其中,hotspot tokens 可以理解为告诉模型:这些位置很重要,希望 binder 尽量围绕这里形成相互作用。
这一步的核心问题是:
模型不是随便生成一个蛋白,而是在靶点约束下生成一个有可能形成特定界面的 binder。
对于 protein target 来说,模型需要理解目标表面的形状、电荷、疏水区域、极性残基和潜在相互作用点。
对于 small molecule target 来说,问题更加细致。小分子结合常常需要非常精确的局部化学环境,例如氢键供受体、疏水口袋、芳香堆积、金属配位或水分子介导相互作用。
对于 enzyme design 来说,模型还需要考虑活性位点几何和催化残基排列。
所以,target conditioning 不只是“把靶点放进模型”。
它真正的意义是:让生成过程围绕相互作用需求展开。
这也是 protein binder 设计的难点所在。
一个蛋白自己折叠得很好,不代表它能结合靶点;一个蛋白能贴近靶点,不代表它有真实亲和力;一个蛋白形成了界面,不代表它能产生功能效应。
因此,Proteina-Complexa 要解决的不只是结构生成,而是相互作用生成。
七、核心技术四:Teddymer 数据集,解决 binder 数据不足问题
蛋白质设计的瓶颈从来不只是模型,也包括数据。
高质量 binder-target 复合物数据远远不如单体蛋白结构数据丰富。尤其是对于 de novo binder 设计,真正经过实验验证的复合物结构更加有限。
如果训练数据太少,模型很难学到足够多样的界面模式。
Proteina-Complexa 引入 Teddymer 数据集,正是为了解决这个问题。
Teddymer 的思路可以概括为:从大量计算预测的单体蛋白结构中,挖掘 domain-domain interaction,把这些结构关系转化为合成 binder-target pairs,用于生成式预训练。
这是一种很有意思的数据构建策略。
很多蛋白虽然在数据库里以单体形式存在,但内部不同结构域之间其实存在类似蛋白-蛋白相互作用的界面。模型可以从这些 domain-domain interaction 中学习界面几何、残基接触、结构互补和相互作用模式。
这样做的意义在于:
把原本有限的 binder-target 数据,扩展为更大规模的相互作用训练资源。
之后,模型还可以结合高质量实验多聚体数据进一步训练,从而获得更强的复合物生成能力。
这说明一个关键事实:AI 蛋白设计的进展,不只是模型架构之争,也是数据工程之争。
很多时候,谁能构建更适合任务的数据,谁就能让模型学到更接近真实设计需求的规律。
八、核心技术五:Test-Time Compute,让模型在推理时“多想几步”
Proteina-Complexa 另一个值得关注的特点,是 test-time compute。
这个概念在大语言模型中已经很常见。一个模型如果能在回答前多推理几步、多尝试几条路径、多做自我检查,结果通常会更好。
在蛋白设计中,test-time compute 也有类似意义。
传统生成模型通常是一次采样生成候选。生成完以后,再做筛选和验证。这样的问题是,很多错误在生成阶段已经发生,后面只能被动淘汰。
Proteina-Complexa 则在推理阶段引入搜索和优化,比如 Beam Search、Best-of-N、奖励函数引导等策略。
可以把它理解为:
模型不是一次性画完草图就交卷,而是一边生成、一边审稿、一边修改。
奖励函数可以包括结构预测置信度、界面预测误差、interface hydrogen bond energy、force field 或物理评分、小分子结合约束、motif RMSD、binder refolding 和 monomer designability 等指标。
这些指标从不同角度约束候选:
它要能形成合理结构;
要能和靶点形成可信界面;
要有足够局部相互作用;
要能在单体状态下重新折叠;
要避免明显物理不合理结构;
如果是 motif 或 enzyme design,还要保留指定几何关系。
这对困难靶点尤其重要。
一个简单靶点可能普通采样就能得到候选;一个复杂靶点则需要模型投入更多计算,在生成空间中搜索更优解。
因此,test-time compute scaling 可能成为未来生物分子生成的重要趋势。
它提示我们,模型性能不只来自训练阶段,也来自推理阶段的搜索和优化。
九、Proteina-Complexa 能做什么?
从公开资料看,Proteina-Complexa 的应用方向不仅限于传统 protein binder 设计。
1. 蛋白靶标 binder 设计
这是最核心的任务。
输入一个靶蛋白结构,模型生成一个新的 binder,包括其序列和全原子复合物结构。
这类任务可用于疾病相关受体、细胞表面蛋白、病毒蛋白、毒素蛋白、信号蛋白等靶点。
如果模型能围绕特定表位生成 binder,就有机会用于阻断、激活、构象稳定、递送靶向或功能调控。
但这里要注意,binder 设计成功不等于药物成功。
一个 binder 即使在体外能结合靶点,也还要面对表达、稳定性、免疫原性、药代动力学和体内功能等问题。
2. 小分子靶标 binder 设计
Proteina-Complexa 也面向小分子靶标设计蛋白 binder。
这类任务可以用于生物传感器、代谢工程、分子捕获、前药激活、靶向递送等方向。
不过,小分子结合蛋白设计非常难。
原因在于,小分子相互作用高度依赖局部化学环境。蛋白口袋需要在合适位置提供氢键、疏水腔、芳香相互作用、电荷互补,甚至金属离子配位。一个结构看起来能包住小分子,并不代表真实亲和力高。
因此,对小分子 binder 来说,后续仍需要 docking、分子动力学、自由能计算和实验测定。
3. Motif scaffolding
Motif scaffolding 指的是:给定一个具有功能意义的结构片段或活性位点几何,让模型生成一个新的蛋白 scaffold 来支撑它。
这在酶设计、功能蛋白设计中非常重要。
比如,我们知道某几个残基需要以特定空间关系排列才能完成催化,那么模型的任务就是生成一个蛋白骨架,把这些残基稳定地摆放在正确位置。
这个任务比普通结构生成更难,因为它不仅要求蛋白整体稳定,还要求局部功能 motif 精准保留。
4. Enzyme design
酶设计是蛋白设计领域最具挑战性的任务之一。
一个酶不是简单结合底物,而是要降低反应能垒,稳定过渡态,安排催化残基,控制底物进入和产物释放。
Proteina-Complexa 可以扩展到 enzyme design,这说明它不仅关注 binder,也试图进入功能蛋白生成领域。
但必须强调,计算生成一个看起来合理的酶活性位点,不等于真实催化效率高。
酶设计最终要靠实验测定 kcat、Km、催化效率、底物特异性和稳定性。这个难度远高于只证明“能结合”。
5. 糖类结合蛋白设计
糖类靶标长期以来都很难设计。
糖类分子通常极性强、构象灵活、羟基密集,且相互作用往往依赖复杂氢键网络和水分子介导效应。相比蛋白靶标,糖类结合界面更难预测和优化。
如果 Proteina-Complexa 能够在糖类结合蛋白设计上取得进展,说明全原子生成和推理时优化可能对这类复杂靶标有价值。
但这个方向更需要谨慎解读。
糖类结合的实验验证、亲和力测定、特异性分析和结构解析都非常关键。不能只凭模型结构判断成功。
十、实验验证结果应该如何理解?
Proteina-Complexa 受到关注的一个重要原因,是公开资料中报道了大规模湿实验验证。
从公开信息看,相关团队开展了超过百万级 binder candidates 的设计活动,涉及上百个靶点,并与多家机构合作进行实验验证。这类实验规模本身就很有意义,因为它不只是展示几个漂亮案例,而是试图在更大范围评估模型生成能力。
报道中涉及的方向包括 protein target binders、小分子 target binders、PDGFR、ActRIIA / myostatin、kinase、Nipah virus、carbohydrate binders 等。
部分案例显示出较高 hit rate 和较强亲和力,这说明 Proteina-Complexa 不是只停留在计算图像层面,而是在真实实验体系中展示了潜力。
但这里必须划清事实边界。
第一,百万级候选不等于百万个成功 binder。
大规模设计活动的意义在于探索和筛选,不是说每个候选都有效。
第二,计算通过不等于实验成功。
模型分数、结构置信度和界面评分只能说明候选值得测试,不能替代结合实验。
第三,体外结合不等于药物有效。
一个 binder 能结合靶点,不代表它有体内活性,更不代表它能进入临床。
第四,个别靶点成功不等于所有靶点都容易。
不同靶点表面性质、构象柔性、表达体系和实验条件差异很大。
第五,商业可用模型不等于临床可用药物。
工具能加速设计,但药物开发仍然需要漫长验证。
因此,对 Proteina-Complexa 的合理评价应该是:
它在 protein binder design 上展示了很强的实验潜力,但距离真实药物开发仍然需要表达、纯化、亲和力、特异性、功能、稳定性、免疫原性、药代动力学和安全性验证。
这不是否定它的价值,而是把它放在正确位置。
十一、Proteina-Complexa 与 RFdiffusion、BindCraft、Protein Hunter、AlphaFold3 的区别
1. Proteina-Complexa vs RFdiffusion
RFdiffusion 是蛋白骨架生成的代表方法。
它可以生成新的蛋白 backbone,也可以围绕特定 motif 或靶点生成 binder 骨架。但在很多流程中,RFdiffusion 生成骨架后,仍需要 ProteinMPNN 进行序列设计,再用 AlphaFold 进行验证。
Proteina-Complexa 的重点则是全原子复合物生成和序列-结构-侧链联合建模。
简单说:
RFdiffusion 更像“骨架生成器”;Proteina-Complexa 更像“全原子复合物生成器”。
这并不意味着前者落后后者,而是任务粒度不同。
2. Proteina-Complexa vs BindCraft
BindCraft 是一个自动化 binder 设计 pipeline。
它利用 AlphaFold2 Multimer 反向传播进行 hallucination,之后结合 ProteinMPNN 做序列重设计,并通过 AlphaFold2 和 PyRosetta 进行结构与物理筛选。
Proteina-Complexa 则更像一个训练好的生成式模型本身。它通过 flow matching 和部分潜变量表示,直接进行全原子 binder 生成,并在推理阶段通过 test-time compute 优化候选。
可以这样理解:
BindCraft 是把多个工具组织成设计工厂;Proteina-Complexa 是把生成能力尽可能放进同一个模型框架。
3. Proteina-Complexa vs Protein Hunter
Protein Hunter 更强调利用 AF3-style 结构预测模型进行 all-X / mixed-X sequence hallucination,通过结构幻觉、序列重设计和结构重预测来生成候选。
Proteina-Complexa 更强调训练好的 protein complex generative model,以及全原子序列-结构联合生成。
两者都体现了结构预测和结构生成的边界正在变模糊,但路线不同。
Protein Hunter 更像反向调用结构预测模型的生成能力;Proteina-Complexa 更像直接训练一个面向复合物设计的生成模型。
4. Proteina-Complexa vs AlphaFold3
AlphaFold3 是多分子结构预测模型。
它可以预测蛋白、核酸、小分子等分子之间可能形成的结构关系。
但 AlphaFold3 本质上仍然回答:
给定这些分子,它们可能如何结合?
Proteina-Complexa 问的是:
为了结合这个目标,我应该生成什么样的新蛋白?
一个偏预测,一个偏设计。
这正是结构生物学和生成式 AI 在蛋白设计中分工变化的体现。
十二、Proteina-Complexa 对 AIDD 和药物研发的意义
Proteina-Complexa 的意义,不在于它宣称“一键生成药物”。
真正重要的是,它可能改变早期 binder 发现的方式。
传统发现逻辑是:
构建大文库 → 实验筛选 → 找 hit → 多轮优化。
生成式设计逻辑则更接近:
根据靶点结构生成候选 → 小规模实验验证 → 进入功能和可开发性优化。
这会带来几个变化。
第一,早期候选生成更有方向。
模型可以围绕特定靶点、特定表位、特定结构约束生成候选,而不是完全依赖随机文库。
第二,设计粒度更细。
Proteina-Complexa 试图同时考虑序列、骨架、侧链和界面,而不是把这些问题拆成互相割裂的步骤。
第三,复杂靶点可能获得新机会。
对于蛋白-蛋白相互作用界面、细胞表面受体、病毒蛋白、毒素蛋白、小分子和糖类靶标,生成式 binder 设计可能提供新的探索方式。
第四,test-time scaling 可能成为生物分子生成的重要方向。
模型不仅要训练得好,还要在推理时会搜索、会优化、会根据奖励函数调整候选。
第五,AI 蛋白设计正在从“模块拼接”走向“端到端复合物生成”。
过去很多流程是工具链式组合:一个模型生成骨架,一个模型设计序列,一个模型预测结构,一个工具打分。Proteina-Complexa 代表的是把这些信息尽可能纳入同一生成过程。
这不意味着模块化流程会消失。事实上,在真实项目中,生成模型、结构预测、物理评分、分子动力学、实验筛选仍然会长期共存。
但方向已经很清楚:
AI 不再只是帮助我们看清分子结构,而是开始帮助我们生成新的分子相互作用。
十三、局限性:生成结构不等于真实药物
Proteina-Complexa 很值得关注,但不能被神化。
在 AI 蛋白设计中,最危险的误解是把“模型生成”直接等同于“生物有效”。
生成结构不等于真实折叠。
模型可以生成一个看起来合理的结构,但它在真实溶液中是否折叠、是否稳定、是否可表达,需要实验确认。
高 in-silico score 不等于实验结合。
计算分数只是候选排序依据,不是亲和力测量。
实验 hit 不等于药物候选。
体外结合只是起点,后面还要看功能、特异性、稳定性、免疫原性和体内行为。
Proteina-Complexa 仍然面对很多现实问题。
比如,生成的 binder 可能表达困难;可能溶解性差;可能存在聚集风险;可能有免疫原性;可能在预测结构中结合很好,但在真实构象动态中无法结合;小分子和糖类靶标的局部化学可能被低估;膜蛋白和高度动态蛋白仍然困难。
此外,训练数据中的偏差也会影响生成空间。
如果模型主要从某些类型结构和界面中学习,它可能更擅长生成类似模式,而对罕见界面、非典型构象、复杂修饰体系表现不足。
test-time compute 可以提升候选质量,但也会带来计算成本上升。对于工业场景来说,模型效果、计算资源、实验验证规模和项目周期之间仍然需要权衡。
所以,最冷静的判断是:
Proteina-Complexa 的价值不在于取消实验,而在于让实验更有方向。
它把候选生成做得更聪明,把结构假设做得更具体,把早期筛选空间压缩得更有效。
但最后,真正决定一个分子能否走向药物研发的,仍然是实验数据。
十四、结语:从预测结构,到生成相互作用
Proteina-Complexa 最值得关注的地方,不只是它生成了更多 binder,也不只是它来自 NVIDIA。
它真正重要的地方,在于代表了一种范式变化:
AI 不再只是预测已有分子的结构,而是开始生成新的分子相互作用。
过去,我们问的是:
这个蛋白会折叠成什么?
后来,我们问:
这个序列能不能形成这个结构?
现在,我们开始问:
为了结合这个靶点,应该生成一个怎样的新蛋白?
这就是从结构预测时代走向结构生成时代,再走向相互作用生成时代的变化。
当然,模型生成的漂亮结构图并不会自动变成药物。真正能走下去的候选,必须经得起表达、纯化、结合、功能、稳定性、可开发性和安全性的一轮轮拷问。
科学从不奖励漂亮的幻觉。
它只奖励那些在实验中站得住的分子。
Proteina-Complexa 的意义,是让我们更快、更系统地提出这些分子假设。
至于哪些假设最终能穿过实验的筛子,走向真实药物研发,还需要时间回答。
但可以确定的是,AI 蛋白设计已经不再只是“看见结构”。
它正在尝试“生成关系”。
这一步,值得认真观察。
