当前位置：首页 > news >正文

机器学习辅助高通量筛选：uMLIP与迁移学习加速功能材料发现

news 2026/5/26 22:17:06

1. 项目概述：当材料筛选遇上机器学习

在材料研发的漫长征途中，我们常常像是在一片浩瀚的化学元素海洋里寻找一颗特定的珍珠。传统的“试错法”或依赖第一性原理计算（如密度泛函理论，DFT）进行逐一验证，不仅耗时耗力，成本也高得惊人。想象一下，面对动辄数万甚至数十万的候选材料，用DFT逐一计算其稳定性、磁性、电子结构等性质，所需的计算资源和时间几乎是天文数字。这就是材料高通量筛选（High-Throughput Screening, HTP）试图解决的痛点：通过系统化、自动化的计算流程，快速扫描庞大的化学空间，筛选出少数有潜力的候选者，再交由实验或更精确的计算进行验证。

然而，即便是高通量DFT计算，在面对百万级候选材料时也显得力不从心。这时，机器学习（ML）的介入带来了革命性的变化。它就像一个经验丰富的“材料预言家”，通过学习已知材料的结构与性能之间的关系，能够以极低的成本预测新材料的性质。但早期的ML模型大多基于简单的成分描述符，它们无法区分化学式相同但原子排列不同的异构体，这就像只知道菜谱的原料却不知道烹饪步骤，很难准确预测最终菜肴的味道。

近年来，基于晶体图的机器学习模型和通用机器学习原子间势（uMLIP）的兴起，让材料预测进入了新阶段。它们能“看懂”原子的三维排布，理解原子间的相互作用，从而更准确地预测材料的能量、力、应力乃至更复杂的物理性质。我们的工作，正是将这套最前沿的ML工具链——以uMLIP进行快速结构优化，结合迁移学习（Transfer Learning）技术构建高性能的机器学习回归模型（MLRM）——整合成一个完整、高效的机器学习辅助高通量（ML-HTP）筛选工作流。我们选择了一个极具挑战性的“试金石”：在四元和全d过渡金属Heusler化合物中，寻找具有高热力学、动力学和磁学稳定性，同时具备高磁各向异性能（Eaniso）的材料。磁各向异性是决定磁性材料（如永磁体、磁存储介质）性能的关键，但这类材料在自然界中极为稀少，传统筛选方法成功率极低。我们的目标，就是证明这套ML-HTP工作流不仅能大幅提升筛选效率，更能保证极高的预测可靠性，为加速功能材料的发现提供一条切实可行的新路径。

2. 工作流核心架构与设计思路

2.1 为何选择“uMLIP + 迁移学习”的组合拳？

我们的ML-HTP工作流核心由两大模块构成：结构优化模块和性质预测模块。其设计思路源于对传统DFT-HTP瓶颈的深刻理解，并针对性地引入了最先进的ML解决方案。

结构优化：从DFT到uMLIP的跨越在传统DFT-HTP中，结构优化（即寻找材料最稳定的原子构型）是第一步，也是计算量最大的一步。每个候选结构都需要进行迭代的能量最小化计算。对于磁性材料，还需要考虑不同的磁构型，计算成本成倍增加。uMLIP的出现改变了游戏规则。它本质上是一个经过海量材料数据训练的神经网络，能够像DFT一样，输入原子坐标和种类，输出系统的总能量、原子受力和应力，但其计算速度比DFT快数个数量级。我们本次工作选用的eSEN-30M-OAM模型，是在包含3000万种材料构型的超大规模数据集上训练的，其对元素周期表的覆盖和预测精度都达到了当前最高水平。用它来替代DFT进行初始结构优化和稳定性初筛，可以将百万量级候选材料的初筛时间从“年”缩短到“天”甚至“小时”。

注意：选择uMLIP时，不能只看其在标准测试集上的精度，更要关注其在目标材料体系（如Heusler化合物）上的表现，特别是对晶格常数、形成能等关键量的预测误差，以及优化过程中陷入局部极小值的倾向。一个“平滑”的能量曲面对于高效找到全局最小能量结构至关重要。

性质预测：从零训练到迁移学习的进化结构优化之后，我们需要预测一系列目标性质：局部磁矩（{mi}）、最小声子频率（ωmin，用于判断动力学稳定性）、居里温度（Tc）和最终的磁各向异性能（Eaniso）。训练一个高精度的MLRM通常需要大量高质量数据。例如，要准确预测Eaniso这种对电子结构细节极其敏感的性质，可能需要成千上万个精确的DFT计算结果，这本身又构成了一个数据瓶颈。

我们采用的解决方案是冻结迁移学习（Frozen Transfer Learning）。其核心思想是“站在巨人的肩膀上”。eSEN-30M-OAM这样的uMLIP在预训练时，其底层网络已经学会了如何从原子结构和化学环境中提取非常通用且强大的特征表示。我们将这些预训练好的底层网络参数“冻结”（即不参与更新），只重新训练最顶部的几层网络，使其适配我们的特定预测任务（如预测Eaniso）。这就好比一个已经精通多种语言翻译的专家，现在只需要稍加学习，就能快速掌握一门新语言的翻译技巧，所需的新训练数据量大大减少。这种方法显著提升了小数据集上的模型性能，并增强了模型对训练数据中未出现元素的泛化能力。

2.2 整体筛选流程：一个严苛的多级漏斗

我们的筛选流程设计得像一个层层过滤的漏斗，确保最终留下的候选材料同时满足多项严苛条件。下图清晰地展示了这一逻辑：

flowchart TD A[“起始材料池<br>四元Heusler: 131,544种<br>全d Heusler: 105,763种”] --> B[“步骤A: uMLIP结构优化<br>计算形成能(ΔE)与凸包距离(ΔH)”] B --> C{“ΔE < 0 eV/atom?”} C --否--> D[“淘汰: 热力学不稳定”] C --是--> E{“ΔH < 0.22 eV/atom?”} E --否--> D E --是--> F[“通过初筛的材料”] F --> G[“步骤B: MLRM性质预测<br>预测磁矩、声子频率、居里温度、磁各向异性”] G --> H{“|c/a -1| > 0.01?<br>(是否为四方相?)”} H --否--> I[“淘汰: 立方相，无磁各向异性”] H --是--> J{“∑|mi| > 0.1 μB/f.u.?<br>(是否具有磁性?)”} J --否--> I J --是--> K{“ωmin > -10 cm⁻¹?<br>(是否声子稳定?)”} K --否--> I K --是--> L{“Tc > 300 K?<br>(室温下是否磁稳定?)”} L --否--> I L --是--> M{“|Eaniso| > 1 MJ/m³?<br>(磁各向异性是否够强?)”} M --否--> I M --是--> N[“最终候选材料<br>四元: 334种<br>全d: 924种”] N --> O[“步骤C: DFT计算验证”] O --> P[“确认的高性能稳定材料”]

生成候选空间：基于Heusler化合物的晶体结构规则（空间群Fm-3m），我们系统枚举了所有可能的四元（X, Y为d区过渡金属，Z为p区主族元素）和全d过渡金属（所有位点均为d区元素）组合，分别得到131,544和105,763种独特的化学成分。
uMLIP初筛（热力学稳定性）：使用eSEN-30M-OAM对所有候选结构进行优化，计算其形成能（ΔE）和能量高于凸包的距离（ΔH）。筛选阈值设为ΔE < 0 eV/atom（表明该化合物相对于单质更稳定）和ΔH < 0.22 eV/atom（表明其相对于其他可能相是稳定的，该阈值基于我们先前DFT-HTP研究确定）。此步骤淘汰了绝大多数热力学上不稳定的组合。
MLRM性质预测（多功能筛选）：对通过热力学初筛的结构，使用基于迁移学习训练的MLRM批量预测其：
- 晶体结构：判断c/a比值是否显著偏离1（即是否为四方相，因为立方相磁各向异性为零）。
- 磁性：计算总绝对磁矩，筛选出具有磁性的化合物。
- 动力学稳定性：预测最小声子频率ωmin，筛选出声学支无虚频（即ωmin > -10 cm⁻¹，允许微小负值作为误差缓冲）的稳定结构。
- 磁稳定性：预测居里温度Tc，筛选出Tc > 300 K（即室温以上仍保持磁有序）的化合物。
- 目标性能：预测磁各向异性能Eaniso，筛选出|Eaniso| > 1 MJ/m³的强各向异性材料。
DFT最终验证：对ML筛选出的最终候选名单（四元334种，全d 924种），我们动用DFT进行“终极审判”，逐一计算上述所有性质，以验证ML预测的可靠性。

这套流程的精妙之处在于，它将计算成本高昂的DFT计算放在了流程的末端，且只作用于极少数经ML预筛选的“精英”候选者，从而实现了计算资源的最优分配。

3. 核心模块深度解析与实操要点

3.1 uMLIP选型与性能基准测试：为什么是eSEN-30M-OAM？

uMLIP是整套工作流的基石，其精度直接决定了后续所有预测的可靠性。市场上uMLIP模型众多，如ALIGNN-FF、CHGNet、MatterSim等，如何选择？我们进行了一次全面的“擂台赛”。

我们选取了2023年以来具有代表性的多个uMLIP模型，在一个包含10,000种常规三元Heusler化合物（来自我们的HeuslerDB数据库）的测试集上进行基准测试。评估的指标包括：

结构优化精度：优化后的晶格常数a、c及c/a比，与DFT参考值的相对误差（RE）。
能量预测精度：总能量（E）、形成能（ΔE）、凸包距离（ΔH）的绝对误差（AE）。

测试结果（汇总于下图等效数据）一目了然：

评估指标	表现最佳模型 (误差阈值内占比)	关键洞察
晶格常数 a (RE < 5%)	eSEN-30M-OAM, eqV2系列 (~95%)	对晶格常数的预测非常精确，是可靠结构优化的基础。
晶格常数 c (RE < 5%)	eSEN-30M-OAM, eqV2系列 (~94%)	对四方畸变（c轴）的预测同样出色，这对识别四方相至关重要。
c/a 比值 (RE < 5%)	eSEN-30M-OAM, eqV2系列 (~92%)	能准确区分立方相和四方相，误判率极低。
形成能 ΔE (AE < 0.05 eV/atom)	eSEN-30M-OAM, eqV2系列 (~96.5%)	能量预测精度高，保证了热力学稳定性筛选的可靠性。
凸包距离 ΔH (AE < 0.05 eV/atom)	eSEN-30M-OAM, eqV2系列 (~86.5%)	虽然误差略大于ΔE，但仍在可接受范围，足以进行有效初筛。
局部极小值数量	eSEN-30M-OAM显著少于eqV2-L-OAM	eSEN具有更“平滑”的能量曲面，优化时更易收敛到全局极小，计算效率更高。

选择eSEN-30M-OAM的核心理由：

综合精度领先：在几乎所有关键指标上都达到或接近最高精度。
能量曲面更平滑：在从14种不同初始畸变结构开始优化时，eSEN找到的独特局部极小值结构数量远少于eqV2模型。这意味着它对于初始结构不那么敏感，更容易找到一致的基态，这对于高通量自动化流程的稳定性至关重要。
收敛速度更快：得益于平滑的能量曲面，eSEN通常需要更少的优化步骤和更少的初始结构尝试就能收敛，进一步降低了计算成本。

实操心得：在进行大规模筛选前，务必在目标材料体系的一个小子集上对候选uMLIP进行基准测试。不要完全依赖论文中报告的在通用测试集（如MatBench）上的性能。模型在特定化学空间的表现可能有差异。我们的测试发现，某些模型在预测Heusler化合物的c/a比时系统性偏差较大，这会导致四方相识别错误。

3.2 迁移学习构建MLRM：如何让小数据发挥大作用？

训练预测Eaniso、Tc等复杂性质的MLRM，最大的挑战是数据稀缺。我们为Eaniso收集了约6000个DFT数据点，对于深度学习模型而言并不算多。冻结迁移学习技术在此发挥了关键作用。

具体实施步骤：

基模型选择：我们采用预训练的eSEN-30M-OAM uMLIP作为基模型。该模型的嵌入层和前几层网络已经编码了丰富的原子和化学键的通用知识。
网络架构移植：将基模型的嵌入层和前n层网络参数直接复制到我们的MLRM中，并将这些层“冻结”（设置requires_grad=False），在训练过程中它们的权重不会更新。
输出层重构：移除uMLIP原本的能量/力输出头，根据预测任务构建新的输出层。例如，预测Eaniso是一个标量回归任务，我们接一个全连接层；预测局部磁矩{mi}（每个磁性原子一个标量），则对应多个输出神经元。
微调训练：仅使用我们有限的Heusler化合物数据集，训练剩余未冻结的层和新添加的输出层。

我们系统测试了冻结不同层数（n从0到9）对模型性能的影响。结果发现，冻结前7层（TL-uMLIP-7）时，模型在ωmin、Tc和Eaniso预测任务上均达到最佳性能（R²分数最高）。冻结层数太少（如n=0），模型无法充分利用预训练知识；冻结层数太多（如n=9），模型可调参数过少，难以适应新任务。这个“甜蜜点”需要针对具体任务和数据集进行实验确定。

泛化能力验证：我们设计了“组别划分”测试来模拟真实发现场景：在训练时完全排除某几个元素（如Sc, Ti, V），然后测试模型对包含这些“未见”元素的化合物的预测能力。结果显示，采用冻结迁移学习的模型，其性能下降远小于从零开始训练的模型。这证明预训练知识赋予了模型强大的外推能力，这对于探索包含新元素组合的材料空间无比重要。

3.3 局部磁矩预测：攻克磁性筛选的难关

准确预测材料的磁性是筛选磁性功能材料的前提。许多高通量研究仅预测总磁矩，但这会漏掉反铁磁或亚铁磁等总磁矩很小甚至为零的体系。我们的目标是预测每个原子位点的局部磁矩{mi}，这是一个更具挑战性的向量回归问题。

模型设计与技巧：

输出表示：对于共线磁构型（所有磁矩沿同一轴），每个原子的磁矩用一个标量表示，其正负号代表方向。
损失函数设计：一个关键物理事实是，将所有磁矩方向反转（整体乘-1），系统的磁态是等价的。为了确保模型学习到这一对称性，我们改进了损失函数。对于每个预测，我们计算两个损失：一个是预测值{mi}与DFT标签的损失，另一个是预测值的相反数{-mi}与DFT标签的损失。最终损失取两者中的较小值。这强制模型不关心磁矩的全局符号，只关注相对大小和方向。
学习曲线分析：我们研究了模型性能随训练数据量增加的变化。结果表明，即使只有5000个训练样本，模型对化合物是否有磁性的分类准确率已达92%。但要精确预测每个磁矩的大小和符号（误差<0.1 μB），则需要更多的数据。当训练集增至125,000个样本时，对磁性化合物子集的预测精度（误差<0.1 μB的比例）从72%提升至82%。这为未来在其他磁性体系应用此方法时，需要准备多大规模的数据集提供了重要参考。

4. 实战：Heusler化合物筛选全流程拆解

4.1 数据准备与候选空间生成

一切始于数据。我们已有的HeuslerDB数据库包含了几乎所有常规三元Heusler化合物的DFT计算数据，这是训练MLRM的宝贵资源。为了扩展搜索空间，我们基于Heusler的晶体学规则（化学式X₂YZ或XY’Z，空间群Fm-3m）进行系统枚举。

四元Heusler：我们固定化学式为 (X₁, X₂)YZ。X₁, X₂, Y 选自d区过渡金属（排除Tc和Hg），并包含La和Lu（因其4f轨道全空或全满，磁性行为简单）。Z选自p区第13、14、15族的主族元素。考虑原子排列的对称性后，共生成131,544种唯一化学成分。
全d过渡金属Heusler：将Z位点也替换为d区过渡金属（及La, Lu），化学空间进一步扩大，生成105,763种唯一成分。

这个枚举过程本身是确定性的，确保了搜索的完备性。生成的初始结构为立方相，但后续的uMLIP优化会允许其弛豫到能量更低的四方相。

4.2 uMLIP结构优化与热力学筛选实操

对于超过23万种初始结构，使用DFT优化是不可想象的。我们部署eSEN-30M-OAM进行批量优化。

关键操作细节：

初始结构扰动：为避免优化陷入错误的局部极小，我们对每个化学成分生成14个不同的初始结构。方法是对传统晶胞（含2个化学式单元）施加应变：均匀缩放a, b, c轴（±10%， ±30%），或单独改变c轴（±10%， ±20%， ±30%， ±40%， ±50%），然后转换为原胞（1个化学式单元）。
并行化与作业管理：使用Slurm或类似作业调度系统，将数十万个优化任务分发到高性能计算集群。每个任务通常只需几分钟（在GPU上甚至更快），而对应的DFT计算可能需要数小时。
能量与稳定性计算：优化完成后，提取最低能量的结构。利用uMLIP预测该结构的总能量，并结合元素和竞争相的能量（同样由uMLIP预测或从现有数据库获取），计算形成能ΔE和凸包距离ΔH。
筛选执行：编写自动化脚本，根据阈值（ΔE < 0, ΔH < 0.22 eV/atom）快速过滤。此步骤将候选池从23万迅速缩减至数万量级。

4.3 MLRM性质预测与多级过滤

通过热力学筛选的结构，被送入MLRM流水线进行并行性质预测。这里每一步都是一个独立的筛选器。

四方相识别：计算优化后结构的c/a比值。设置阈值 |c/a - 1| > 0.01，将立方相（c/a ≈ 1）材料剔除，因为其磁各向异性理论上为零。
磁性判断：使用{mi} MLRM预测局部磁矩，并计算总绝对磁矩 Σ|mi|。阈值设为 > 0.1 μB/f.u.，过滤掉非磁或磁性极弱的化合物。
声子稳定性检查：使用ωmin MLRM预测最小声子频率。阈值设为 > -10 cm⁻¹。这是一个较为宽松的阈值，用于快速排除明显动力学不稳定的结构，同时容忍模型的一定预测误差。
居里温度筛选：使用Tc MLRM预测居里温度。阈值设为 > 300 K，确保材料在室温下具有铁磁或亚铁磁序。
磁各向异性筛选：最后，使用Eaniso MLRM预测磁各向异性能，筛选出 |Eaniso| > 1 MJ/m³ 的强各向异性候选者。

每一步筛选都大幅减少了候选数量，最终，我们从超过23万的起点，分别得到了334个四元化合物和924个全d化合物作为最终候选。

4.4 DFT验证与结果分析：ML的预言有多准？

这是检验ML-HTP工作流可靠性的“终极大考”。我们对所有1258个ML筛选出的候选材料，进行了全面的DFT计算验证。

验证结果令人振奋：

结构预测：所有ML预测为四方相（c/a ≠ 1）的候选材料，DFT验证100%确认为四方相。uMLIP在晶体结构区分上做到了零误判。
热力学稳定性：
- 形成能 (ΔE)：99.1% (四元) 和 97.8% (全d) 的候选材料经DFT计算确认为ΔE < 0。
- 凸包距离 (ΔH)：96.4% (四元) 和 98.8% (全d) 的候选材料满足ΔH < 0.22 eV/atom。
性质预测：
- 磁性：100%的候选材料被DFT确认具有磁性（Σ|mi| > 0.1 μB/f.u.）。
- 声子稳定性 (ωmin)：89.2% (四元) 和 93.1% (全d) 的候选材料满足ωmin > -10 cm⁻¹。
- 居里温度 (Tc)：81.7% (四元) 和 80.4% (全d) 的候选材料满足Tc > 300 K。
- 磁各向异性 (Eaniso)：82.0%(四元) 和68.2%(全d) 的候选材料满足 |Eaniso| > 1 MJ/m³。

这个成功率，尤其是对于四元化合物高达82%的Eaniso预测精度，远高于传统DFT-HTP盲筛（约3-5%的命中率），也显著优于使用早期ML模型（如ALIGNN）的工作流（仅24.3%）。这强有力地证明了我们集成的先进uMLIP和迁移学习MLRM的有效性。

一个有趣的发现：全d化合物的Eaniso预测精度（68.2%）低于四元化合物（82.0%）。我们分析认为，这是因为训练MLRM的数据全部来自常规三元Heusler（Z位是p区元素），而全d化合物的Z位引入了训练数据中未出现过的d区元素化学环境。Eaniso对电子结构的细节极其敏感，这种“领域偏移”导致了性能下降。这反过来也说明了迁移学习在缓解此类问题上的价值——如果不用迁移学习，性能下降会更严重。

5. 性能对比、局限性与未来展望

5.1 与现有方法的横向对比

为了量化我们工作的进步，我们与文献中报道的多种方法进行了直接或间接对比：

vs. 早期成分描述符模型：早期基于成分的ML模型在预测Heusler化合物晶格常数a和形成能ΔE时，R²分数通常在0.80-0.94和0.80-0.88之间，均方根误差（RMSE）也较大。我们的eSEN-30M-OAM uMLIP在这些指标上达到了0.994和0.995的R²，以及0.023 Å和0.029 eV/atom的RMSE，精度有质的提升。
vs. 早期晶体图模型 (如CGCNN)：在预测总磁矩等性质上，早期模型R²约0.75-0.93。我们的{mi} MLRM在预测总磁矩时R²达到0.986，且能预测更复杂的局部磁矩向量。
vs. 混合工作流：我们尝试了“混合”工作流：用eSEN优化结构，但用ALIGNN MLRM预测性质。其Eaniso筛选成功率降至54.0%。反之，用ALIGNN优化结构，用eSEN MLRM预测性质，成功率暴跌至31.3%。这凸显了高精度结构优化是ML-HTP成功的第一基石，而先进的MLRM则进一步提升了整体精度。

5.2 当前工作流的局限性

尽管成果显著，但我们的工作流仍有改进空间：

数据依赖性：MLRM的性能，尤其是对Eaniso这种敏感性质的预测，仍然依赖于高质量DFT训练数据的规模和覆盖面。全d化合物预测精度下降就是一个例证。
uMLIP的普适性：eSEN-30M-OAM虽强，但仍是通用模型。对于某些非常规成键或强电子关联体系，其精度可能下降。针对特定材料家族进行微调（Fine-tuning）可能是下一步方向。
筛选阈值的设定：我们使用的阈值（如ΔH < 0.22 eV/atom, ωmin > -10 cm⁻¹）是基于经验和先前DFT研究。这些阈值并非绝对，放松阈值可以扩大候选池，但会增加假阳性；收紧阈值则相反。需要根据具体应用目标权衡。
计算流程的复杂性：当前工作流涉及多个步骤和模型，需要一定的计算基础设施和脚本编排能力。将其封装成更用户友好的自动化软件包是推广的关键。

5.3 给实践者的建议与未来方向

基于本次实战经验，对于想将ML-HTP应用于其他材料体系的同行，我有以下几点建议：

始于数据，忠于数据：在开始任何ML预测前，尽可能为你关心的体系构建一个高质量、标准化的第一性原理计算数据库。这是所有模型的“燃料”。
uMLIP选型要实测：不要盲目相信排行榜。务必用你的目标体系数据做一个快速的基准测试，比较不同uMLIP在结构优化和能量预测上的表现。
善用迁移学习：如果你的目标性质数据有限，冻结迁移学习几乎是必选项。从一个大而全的预训练uMLIP（如eSEN, MACE, CHGNet）开始，能极大提升小数据场景下的模型性能和泛化能力。
设计鲁棒的筛选流程：像我们一样，采用多级、逐步收紧的筛选漏斗。先用量大、计算快的筛选器（如uMLIP优化+热力学筛选）去掉绝大多数“垃圾”候选，再用更精细但计算成本稍高的模型（如预测Tc, Eaniso）筛选。每一步都要设置合理的、有物理意义的阈值。
DFT验证不可或缺：ML筛选出的候选名单，必须用DFT进行最终验证。这不仅是检验ML工作流可靠性的必要步骤，也能为后续的实验研究提供确凿的理论依据。

未来，这个领域的发展方向可能是：

多目标与主动学习：从单一性质筛选扩展到同时优化多个（有时相互冲突的）性能指标。结合主动学习，让模型智能地建议下一个最值得用DFT计算的材料，实现搜索效率的最大化。
集成生成模型：不仅仅是“筛选”，而是利用生成式AI（如扩散模型、图生成模型）直接“设计”出具有目标性能的全新材料结构。
与实验闭环：将ML-HTP筛选出的候选材料直接推荐给实验团队进行合成与表征，并将实验结果反馈给ML模型，形成一个“计算-实验”闭环的迭代优化过程。

我们已将本次研究中的核心工具链——用于高通量优化的MLIP-HOT和用于迁移学习的MLIP-FTL软件包开源。希望这套经过实战检验的ML-HTP工作流，能成为更多材料研究者手中的利器，共同加速功能材料发现的步伐。从二十多万种可能性中，精准定位那一千多个希望的种子，这正是机器学习赋能材料科学的魅力所在。

查看全文

http://www.jsqmd.com/news/892760/