当前位置: 首页 > news >正文

从 RFdiffusion 到 RFdiffusion3:AI 蛋白质设计模型的三次跃迁

一、引言:RFdiffusion 系列为什么重要

过去很长一段时间里,蛋白质科学的核心问题是“如何预测一个序列会折叠成什么结构”。AlphaFold2、RoseTTAFold 等结构预测模型解决的是这个方向的问题:给定氨基酸序列,预测三维结构。

但药物设计、酶设计、抗体工程、材料蛋白设计真正需要的不只是预测,而是反过来提出一个更难的问题:如果我想要一种蛋白具有某种结构、结合某个靶点、固定某个功能基团,甚至催化某个反应,那么我能不能直接生成这样的蛋白?

RFdiffusion 系列模型的价值,就在于它把蛋白质设计从“搜索已有结构”和“局部优化”推进到“从噪声中生成新结构”。它不再只是问一个序列会折叠成什么,而是尝试从设计目标出发,生成一个可能自然界从未出现过、但可以被序列编码并实验验证的蛋白结构。

如果用一句话概括 RFdiffusion 系列的演变,可以说:

RFdiffusion 1 让蛋白骨架生成成为通用工具;RFdiffusionAA 让模型开始看见蛋白之外的原子世界;RFdiffusion2 把设计目标推进到酶活性位点的原子级几何;RFdiffusion3 则试图把蛋白、配体、核酸和功能相互作用统一到一个全原子生成框架中。

这条路线的本质不是简单升级,而是蛋白质设计粒度和对象的连续扩展:从 backbone-level protein design,走向 all-atom biomolecular interaction design。

二、第一阶段:RFdiffusion 1 如何让蛋白骨架生成成为通用设计工具

RFdiffusion 1 的代表论文是 2023 年发表在 Nature 上的《De novo design of protein structure and function with RFdiffusion》。这篇论文的重要性在于,它把扩散模型正式带入了可实验验证的蛋白质结构与功能设计中。

在 RFdiffusion 之前,蛋白设计主要有几类路线。第一类是基于 Rosetta 的物理能量函数设计,通过规则、搜索和能量优化生成结构。第二类是 hallucination 方法,也就是让结构预测网络“幻想”出某种满足约束的蛋白结构。第三类是 RFjoint Inpainting 等结构补全方法,可以围绕已知 motif 补全蛋白骨架。

这些方法都有效,但存在一个共同问题:它们通常对初始结构、约束条件或人工设计经验依赖较强。当任务变复杂时,生成多样性和成功率容易下降。

RFdiffusion 的核心思想,是把 RoseTTAFold 这样的结构预测网络改造为一个去噪网络。模型训练时,先把真实蛋白结构逐步加噪,再学习如何从噪声中一步步恢复出合理蛋白结构。生成时,模型从随机噪声开始,经过多轮迭代去噪,逐渐形成一个蛋白骨架。

这就像雕塑。传统方法更像是拿一块已有石头慢慢修;RFdiffusion 则更像是从一团混乱的雾中,把一个蛋白结构“显影”出来。

RFdiffusion 1 主要生成的是蛋白骨架,也就是每个残基的主链框架。它可以做几类典型任务:

第一类是无条件单体蛋白生成。模型不需要给定具体功能,只需要生成一个看起来合理、能够被序列编码并折叠的蛋白骨架。

第二类是对称寡聚体设计。模型可以根据对称性要求生成 C3、C4、二面体等复杂对称装配结构。

第三类是 protein binder design。给定一个靶蛋白和界面 hotspot residues,模型生成一个新的蛋白 binder,使其能够结合目标蛋白表面。

第四类是 motif scaffolding。给定一个功能 motif,例如金属结合位点、催化残基片段或功能结构片段,模型生成一个完整蛋白 scaffold,把这个功能片段稳定地放入合理结构中。

RFdiffusion 1 在论文中的性能体现主要来自两个层面。

第一是计算验证。论文使用 AlphaFold2 等结构预测模型检查生成序列是否能够折叠回设计结构。例如,设计结构和 AF2 预测结构之间的骨架 RMSD、pAE 等指标被用于判断 in silico success。

第二是实验验证。论文不仅生成了结构,还对大量设计蛋白进行了实验表征,包括对称装配体、金属结合蛋白和 protein binder。尤其在 binder design 中,RFdiffusion 针对多个靶点设计了结合蛋白,并通过 BLI 等实验方法验证结合能力。论文中还展示了流感 HA binder 的 cryo-EM 结构,其实验结构与设计模型高度吻合。

这一代模型真正推进的地方在于:它让“从目标条件生成蛋白骨架”变成了一个通用流程。RFdiffusion 1 的关键不只是生成了漂亮结构,而是把蛋白设计从“人工搭框架”推进到“条件生成”。

但是,RFdiffusion 1 也有明显边界。它主要处理的是残基框架和蛋白骨架层面的问题,对配体、核酸、金属、小分子、共价修饰、复杂侧链原子相互作用的直接建模能力有限。也就是说,它已经能生成蛋白“形状”,但对“原子级功能化学”的理解还不够。

三、过渡阶段:RFdiffusionAA 如何让模型看见蛋白之外的原子世界

RFdiffusionAA 的基础来自 RoseTTAFold All-Atom,也就是 RFAA。它的重要性在于,它把原本以蛋白为中心的结构建模,扩展到更复杂的生物分子系统。

在真实生物体系中,蛋白质很少孤立存在。它们会和小分子、金属离子、DNA、RNA、糖基、辅因子、共价修饰等发生相互作用。一个酶的功能,往往由活性位点中的特定原子几何决定;一个小分子结合蛋白的成功,取决于口袋内侧链原子与配体之间的氢键、疏水、范德华和空间互补;一个 DNA 结合蛋白的设计,则需要识别核酸骨架和碱基局部几何。

如果模型只看蛋白主链,就会遗漏大量决定功能的化学细节。

RoseTTAFold All-Atom 的思路,是把氨基酸和 DNA 碱基等部分继续用 residue-level 表示,同时把小分子、金属、修饰基团等非标准部分以 atomic representation 纳入模型。这样,模型不再只是在蛋白残基层面建模,而是可以处理包含蛋白、核酸、小分子、金属和修饰的复杂生物分子装配体。

RFdiffusionAA 则进一步把这种全原子建模能力用于生成设计。换句话说,RFAA 让模型“看懂”复杂生物分子系统,RFdiffusionAA 则开始尝试“生成”能够与这些非蛋白组分相互作用的蛋白。

在应用上,RFdiffusionAA 的代表任务是小分子结合蛋白设计。例如围绕特定化合物生成结合口袋,让蛋白能够与小分子形成合理相互作用。相关工作中展示了针对 digoxigenin、heme 等分子的结合蛋白设计案例。

RFdiffusionAA 在演化路线中不是简单的“RFdiffusion 2”,而更像是一个关键桥梁。它把模型从 backbone-only 的蛋白骨架生成,推向 ligand-aware、atom-aware 的设计空间。后来的 RFdiffusion2 和 RFdiffusion3,都在不同程度上继承了这种全原子思想。

RFdiffusionAA 的局限也很清楚。虽然它能处理更复杂的分子对象,但在酶设计中,仅仅知道配体或原子存在还不够。酶设计需要对过渡态、催化残基、功能基团几何、反应机制和活性位点微环境进行更精确的约束。因此,RFdiffusionAA 打开了全原子设计的大门,但还没有完全解决“从反应机制生成酶”的问题。

四、第二阶段:RFdiffusion2 如何面向原子级酶活性位点设计

RFdiffusion2 的代表论文是《Atom-level enzyme active site scaffolding using RFdiffusion2》。这篇工作的核心目标非常明确:解决酶设计中的原子级活性位点 scaffold 问题。

酶设计不同于普通 binder design。Binder 设计主要关注界面互补和结合稳定性,而酶设计还要求活性位点中的功能基团以特定空间几何排列,去稳定反应过渡态并完成催化。一个催化 Lys 的位置、一个 Tyr 的氢键方向、一个金属离子的配位几何,稍微偏一点,可能就从“有活性”变成“没有活性”。

传统 de novo enzyme design 通常从 theozyme 开始。Theozyme 可以理解为一个理想化的反应活性位点模型,它描述了催化功能基团、过渡态、底物或辅因子之间的空间关系。过去的方法通常需要先指定催化残基的类型、rotamer、序列编号和大致骨架位置,然后再寻找或生成能够承载这些残基的 scaffold。

这带来两个问题。

第一,搜索空间爆炸。如果活性位点包含多个催化残基,每个残基都有不同 rotamer 和可能序列位置,那么组合数量会迅速增加。

第二,设计灵活性受限。模型不是直接从功能基团几何出发,而是先把功能基团“翻译”为某些预定义残基位置,再去生成骨架。这等于提前限制了模型可以探索的解空间。

RFdiffusion2 的关键改进,是让模型能够直接从 atom-level functional group geometry 出发进行设计,而不要求提前指定这些功能基团属于哪个序列位置,也不要求人工完成 inverse rotamer generation。也就是说,输入可以是未编号的原子级 motif,模型在生成过程中同时决定:这些功能原子应该由哪些残基承担、这些残基应该放在序列的哪里、整体骨架应该如何支撑这个活性位点。

这就是 unindexed atomic motif 的重要性。传统 motif scaffolding 像是在说:“第 35 位 Lys、第 78 位 Tyr、第 120 位 Asn 必须这样摆。”RFdiffusion2 更像是在说:“我需要这些功能基团以这种几何关系出现,你来决定它们应该长在哪些残基上,以及整个蛋白怎么支撑它们。”

方法上,RFdiffusion2 基于 RFdiffusionAA 的全原子表示,并引入 flow matching 作为训练目标。与传统扩散模型相比,flow matching 在某些生成任务中训练和采样更稳定、更高效。对于 unindexed atomic motif scaffolding 这样约束复杂的问题,更稳定的训练目标非常关键。

论文中的性能表现主要体现在 AME benchmark 上。RFdiffusion2 在 41 个多样化原子级活性位点 benchmark 中全部生成 scaffold,而前代方法只能完成其中 16 个。这说明它在复杂活性位点 scaffold 上显著扩大了可解决问题的范围。

更重要的是,论文不仅做了计算 benchmark,还进行了实验验证。研究者针对三类不同催化机制设计酶,并在每一类中测试少于 96 条序列后找到了有活性的候选酶。这一点非常关键,因为酶设计历史上最大的问题不是“能不能生成看起来合理的结构”,而是“生成结构是否真正能催化反应”。

RFdiffusion2 真正推进的地方在于:它把 RFdiffusion 系列从“生成蛋白骨架以支持结构/结合功能”,推进到“从反应机制和功能基团几何出发生成酶结构”。这意味着模型开始直接面对功能化学,而不只是面对结构几何。

但 RFdiffusion2 仍然有局限。第一,活性不等于天然酶水平的高催化效率,很多 de novo enzyme 仍需要后续定向进化或理性优化。第二,它更聚焦于酶活性位点 scaffold,对更广泛的蛋白-核酸、蛋白-小分子、蛋白-蛋白相互作用还不是统一框架。第三,生成结果仍需依赖 AF3、Chai-1、Rosetta、实验筛选等多层过滤。

五、第三阶段:RFdiffusion3 如何走向统一的全原子生物分子相互作用设计

RFdiffusion3,简称 RFD3,是 RFdiffusion 系列继续向全原子统一生成模型迈进的重要版本。它的代表论文目前是 bioRxiv 预印本《De novo Design of All-atom Biomolecular Interactions with RFdiffusion3》,同时 RosettaCommons/foundry 已发布训练和推理代码。

RFdiffusion3 的核心定位,是一个 all-atom biomolecular interaction design model。它不再只关注蛋白骨架,也不只关注酶活性位点,而是试图在统一模型中处理多种生物分子相互作用场景,包括蛋白-蛋白结合、蛋白-小分子结合、蛋白-DNA/核酸结合、酶设计、对称结构设计等。

相较于 RFdiffusion2,RFdiffusion3 的一个重要变化是 atom-level diffusion。RFdiffusion2 已经能处理原子级活性位点约束,但 RFD3 更进一步,把原子作为扩散过程的基本对象。也就是说,模型不仅生成主链框架,还直接在原子层面处理 backbone 和 side-chain atoms。这使得模型可以更明确地考虑侧链原子与配体、核酸或催化基团之间的相互作用。

这对于功能设计非常重要。因为很多生物功能不是由主链决定的,而是由侧链原子、氢键供受体、配体埋藏程度、局部电性和几何互补决定的。如果模型只生成 backbone,然后再交给 ProteinMPNN 或后处理工具补序列,功能原子之间的细节可能会丢失。RFD3 的目标,就是让生成过程本身更早地感知这些原子级关系。

RFdiffusion3 的另一个改进是条件输入更灵活。根据 RosettaCommons 的说明,RFD3 支持氢键供受体原子条件、配体原子埋藏程度标签、设计蛋白相对靶分子或 motif 的质心条件,以及从 RFdiffusion1 回归的对称设计能力。这说明 RFD3 不只是“更全原子”,也是“更可控”。

在性能表现上,公开资料显示 RFD3 在多类任务中表现出更强的多样性和更高效率。例如 RosettaCommons 发布说明提到,RFD3 可以批量生成结构,速度约为 RFD2 的 10 倍;在 DNA 结合蛋白设计中,单体设计 pass rate 为 8.67%,二聚体设计 pass rate 为 6.67%;在 enzyme design 上,RFD3 在 90% 的 AME benchmark cases 上优于 RFD2。

不过,对 RFdiffusion3 的判断需要更谨慎。RFdiffusion 1 已有 Nature 论文和大量实验验证,RFdiffusion2 已发表在 Nature Methods,并包含 benchmark 和实验酶验证;而 RFdiffusion3 目前主要依据预印本、官方发布说明和开源代码。它确实代表了非常重要的技术方向,但其中一些性能结论仍需要等待同行评议和更多第三方复现。

RFdiffusion3 真正推进的地方在于:它不再把不同任务拆成多个专用模型,而是试图构建一个统一的全原子生成框架。它背后的方向是,未来蛋白设计模型可能不再区分“这是 binder 模型”“这是酶模型”“这是小分子口袋模型”“这是 DNA 结合模型”,而是通过统一的原子级表示和条件控制,直接生成满足不同生物分子相互作用需求的结构。

六、横向对比表

维度RFdiffusion 1RFdiffusionAA / RFAARFdiffusion2RFdiffusion3
代表阶段蛋白骨架生成阶段全原子过渡阶段原子级酶活性位点阶段统一全原子相互作用阶段
代表论文De novo design of protein structure and function with RFdiffusionGeneralized biomolecular modeling and design with RoseTTAFold All-AtomAtom-level enzyme active site scaffolding using RFdiffusion2De novo Design of All-atom Biomolecular Interactions with RFdiffusion3
主要对象蛋白骨架、binder、对称寡聚体、functional motif scaffold蛋白、小分子、核酸、金属、修饰基团等复合体系酶活性位点、theozyme、原子级功能基团蛋白-蛋白、蛋白-小分子、蛋白-核酸、酶、对称结构等
建模粒度residue frame / backbone-levelresidue + atom 混合表示atom-level motif + scaffoldatom-level diffusion
输入条件target、hotspot、motif、symmetry、partial structure配体、小分子、核酸、金属、修饰等全原子对象未编号原子级 motif、theozyme、功能基团几何氢键供受体、配体埋藏标签、质心条件、对称条件、多类型分子上下文
输出结果蛋白骨架,后续用 ProteinMPNN 设计序列可与非蛋白组分相互作用的蛋白设计支撑活性位点的酶 scaffold全原子层面的生物分子相互作用设计
核心变化RoseTTAFold 改造为扩散去噪网络模型从 protein-only 扩展到 biomolecular complex从 backbone motif scaffolding 到 atom-level active-site scaffolding从专用任务模型走向统一 all-atom foundation model
性能体现多任务 in silico success 和实验验证,binder 设计成功率显著提升小分子结合蛋白等实验案例41/41 AME benchmark 生成 scaffold,旧方法为 16/41预印本和官方说明中显示多任务、速度和多样性提升
实验验证对称装配体、金属结合蛋白、protein binder 等小分子结合蛋白设计验证三类催化机制中测试少于 96 条序列找到活性酶目前主要基于预印本、官方发布和代码,仍需更多同行评议和第三方验证
主要意义让条件蛋白骨架生成成为通用工具让模型看见蛋白之外的原子世界让模型直接从反应机制设计酶活性位点试图统一多类型全原子生物分子相互作用设计
主要局限对小分子、核酸、侧链原子功能化学建模不足仍不是完整酶设计解决方案聚焦酶活性位点,仍需后续筛选和优化证据成熟度低于前两代,实际泛化能力仍需验证

七、演变主线总结

RFdiffusion 系列的演化,本质上是一条从“结构生成”走向“功能生成”的路线。

RFdiffusion 1 解决的是:如何从随机噪声中生成可折叠、可设计、可实验验证的蛋白骨架。它让蛋白设计摆脱了大量人工搭建 scaffold 的限制,使 binder、对称装配体和 motif scaffolding 成为可以统一处理的生成任务。

RFdiffusionAA 解决的是:如何让模型不仅理解蛋白残基,还理解小分子、核酸、金属、修饰等真实生物体系中的非蛋白原子对象。它把蛋白设计从“骨架空间”推进到了“分子环境空间”。

RFdiffusion2 解决的是:如何从原子级功能基团几何出发,直接生成能够承载酶活性位点的 scaffold。它让模型不再依赖预先编号的催化残基和 inverse rotamer generation,而是把 rotamer、序列位置和 scaffold 一起作为联合生成问题来处理。

RFdiffusion3 解决的是:如何把不同类型的生物分子相互作用放进一个统一的全原子生成框架中。它试图让蛋白设计模型同时面对蛋白、配体、核酸和功能原子约束,而不是为每一种任务单独构建一个模型。

因此,RFdiffusion 系列并不是简单地从 1 升级到 2 再升级到 3,而是经历了三次设计范式的跃迁:

第一次跃迁,是从结构预测到结构生成。
第二次跃迁,是从骨架生成到全原子功能约束。
第三次跃迁,是从单一任务设计到统一生物分子相互作用设计。

八、对 AI 药物发现和蛋白质工程的启示

RFdiffusion 系列对 AI 药物发现的意义,不只是提供了一个好用的蛋白生成工具,更重要的是改变了我们对“药物设计对象”的理解。

传统药物发现中,小分子药物是最经典的设计对象。后来抗体、蛋白药物、环肽、ADC、分子胶等形式不断出现,药物分子的边界变得越来越宽。RFdiffusion 系列进一步说明:未来的药物设计对象可能不仅是一个分子,而是一种可以被设计的相互作用。

对于 protein binder design,RFdiffusion 1 已经证明,可以针对目标蛋白表面生成新的结合蛋白。这对阻断蛋白-蛋白相互作用、设计新型拮抗剂、构建靶向递送模块都有意义。

对于 enzyme design,RFdiffusion2 提供了一种从反应机制出发设计蛋白 scaffold 的路线。这对生物催化、绿色合成、代谢工程和人工酶开发非常重要。过去酶设计往往高度依赖天然 scaffold 和定向进化,而 RFdiffusion2 说明,AI 模型可以更直接地从化学机制生成结构候选。

对于小分子结合蛋白和 biosensor 设计,RFdiffusionAA 和 RFdiffusion3 的意义更明显。很多传感器、调控蛋白、药物捕获蛋白都需要围绕特定小分子形成结合口袋。全原子生成模型有机会直接设计口袋形状、氢键网络和配体埋藏程度。

对于抗体和蛋白治疗,RFdiffusion 系列也提供了新的思路。虽然抗体设计有自身的免疫学、表达、稳定性和人源化约束,但从“结构条件生成”和“界面原子级互补”的角度看,RFdiffusion 系列的方法可以启发 CDR 结构设计、抗原表位结合、scFv 工程和多特异性蛋白设计。

更深层的启示是,AI 药物发现正在从“预测工具”走向“生成工具”,再走向“可控生成工具”。早期模型回答的是“这个结构是什么”;现在模型开始回答“我想要这个功能,能不能生成一个结构”;未来更重要的问题会是“我能否指定功能、机制、几何、可开发性和实验约束,让模型生成一组真正可推进的候选分子”。

九、结论

第一,RFdiffusion 1 的核心贡献不是单一任务突破,而是建立了蛋白骨架条件生成的通用范式。它证明了扩散模型可以在蛋白质三维结构空间中生成多样、可设计、可实验验证的新结构。

第二,RFdiffusionAA 的意义在于把模型视野从蛋白本身扩展到蛋白所处的分子环境。真实功能往往发生在蛋白与配体、核酸、金属、辅因子和修饰之间,只有进入全原子表示,模型才可能真正接近功能设计。

第三,RFdiffusion2 是从结构设计走向机制设计的重要一步。它不只是生成一个蛋白 scaffold,而是围绕反应机制中的原子级功能基团生成能够承载活性位点的蛋白结构。

第四,RFdiffusion3 代表了更大的方向:统一的全原子生物分子相互作用生成模型。它试图把 binder、enzyme、ligand-binding protein、DNA-binding protein 等任务放进同一个设计框架。

第五,RFdiffusion 系列也提醒我们,AI 蛋白质设计的瓶颈已经不只是“能不能生成”,而是“能不能生成真正有功能、可表达、可优化、可验证、可进入药物研发流程的候选分子”。模型生成只是起点,真正的药物发现仍然需要结构验证、功能实验、可开发性评估和迭代优化。

http://www.jsqmd.com/news/941060/

相关文章:

  • 人机交互设计指南:构建可信AI产品的四大核心原则与实战模式
  • 2026 深度测评|视频去水印软件实测对比,手机电脑热门工具全盘点
  • 不只是显示:用STM32的OLED和串口打造智能小车‘仪表盘’,实时监控PID参数与OpenMV数据
  • html零基础入门指南:用快马平台生成代码示例快速掌握标签语法
  • WeChatPad终极指南:快速实现微信平板模式,轻松解锁双设备同时在线
  • 4.3 模型评估与调参:避免过拟合
  • Visual Studio图像调试器开发指南:从原理到实现
  • 保姆级教程:在银河麒麟V10服务器上配置bond双网卡(附7种模式详解与选型建议)
  • 人脸识别、用户分群...Fisher判别在业务中真的过时了吗?对比XGBoost与LDA实战案例
  • WPF大屏看板源码工程:含完整目录结构、双素材包与调试配置
  • 如何在10分钟内完成BepInEx游戏插件框架安装:完整指南
  • 告别Keil!用CLion无缝接手同事的STM32项目(附CubeMX迁移文件清单)
  • Agent性能评测基准深度调研:AgentBench、WebArena及其局限
  • 新手必看:用逻辑分析仪抓取杰发AC7840的CAN总线波形,一步步教你分析数据帧
  • 微软Project Silica:用石英玻璃实现千年数据存储的技术解析
  • 效率提升:无需全网搜索下载,用快马AI即刻生成专属在线图片处理工具
  • 保姆级教程:用yum downloadonly为银河麒麟V10 ARM系统制作Docker离线安装包
  • 实战指南:基于快马平台,快速开发一个电商智能客服AI Agent
  • 连续长度测量型菲林尺介绍
  • Claude项目计划书黄金结构:1份模板+6个数据锚点+12项必须签署的法律附件(限2024Q3内部流出版)
  • AI智能体与软考架构设计深层关联(4)
  • MPC-BE深度解析:Windows平台开源媒体播放器的架构设计与工程实践
  • STM32L431电池供电场景下的双路低功耗唤醒工程:RTC定时+按键即时响应
  • 开放软件设计:从互操作性到科学工作流构建的实践指南
  • 保姆级教程:用Pandas+Matplotlib搞定公交刷卡数据分析(从数据清洗到可视化)
  • 城市数字文化空间建设平台技术方案
  • 从杰卡德相似度到最小哈希:构建海量数据去重与相似搜索系统
  • 3步解决城通网盘下载难题:ctfileGet直连地址获取终极指南
  • 安全多方计算:构建数据可用不可见的安全数据交换市场
  • 局部可重构码:微软研究院如何将存储纠删码理论转化为多产品线实践